I 



WO 2005/101292 PCI/FR2005/000673 



1 

Proc6d6 de recherche de contenu, notamment d'extraits communs entre deux fichiers 

mformatiques 

La prdsente invention conceme la recherche de contenu infoimatique, en particuliei d'extiaits 
5 communs entre deux fichiers . 

Plus particuliferement, il s'agit de rechercher au moins un extrait commun entre un premier 
fichiei et un second fichiei, sons foime de donnees binaires, 

10 Les techniques actuellement connues proposent une recherche k l'identique, gen&alement 
donnee par donn6e La lenteui de la recherche, pom des applications a des fichiers de grandes 
tallies, devient redhibitory 

Lapr6sente invention vient ameliorer la situation. 

15 

Elle propose k cet efFet un procedd de recherche de contenu qui compoite une preparation 

pr^alable du premiei fichiei piecit6 au moins, comprenant les etapes suivantes : 

a) segmentei le premiei fichiei en une succession de paquets de donnees, de taille choisie, et 

identifier des adresses de paquets dans ledit fichiei, 
20 b) associer & l'adi esse de chaque paquet une signature num&ique d6finissant un etat eh logique 

floue panrd au moins trois etats : "vrai", "faux" et "ind&erminS", ladite signature r6suitant 

d r un calcul combinatoire sur des donnees issues dudit fichiei, 
le proc&16 se poiwsuivant ensuite pat une recherche d'extrait commun, proprement dite, 
comprenant les stapes suivantes : 
25 c) comparei les 6tats de logique floue assoctes h chaque adresse de paquet du premiei fichiei; 

avec des £tats de logique floue determines a pat tii' de donndes issues du second fichiei, 
d) eliminer de ladite recherche d'extrait commun des couples d'adresses respectives des 

premiei et second fichiers dont les &ats logiques respectifs sont "vrai" et "faux" ou "faux" 

et "viai", et conseiver les autres couples d'adresses identifiant des paquets de donnees 
30 susceptibles de compoiter ledit extiait commun, 

A I'etape b), on affecte preferentieilement h un paquet de donnees Tetat : 
"vrai" si toutes les donnees du paquet veiifient une premiere condition, 
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"faux" si toutes les donnees du paquet verifient une seconde condition, contraire a la 
premiere condition, 

et "indetermb^" si ceitaines donnees du paquet verifient ia premiere condition, tandis que 
d'autres donnees du paquet v&ifient la seconde condition. 

Dans un mode de realisation pr£fei£, on applique aux donnees d'un fichier un traitement 
prealable a Tetape b) et comportant les etapes suivantes : 

al) on considers les donnees du fichier en tant que suite d'echantillons obtenus a une 

frequence d'echantillonnage predetermine, et de valeuis codSes sdon un code de 

representation binaire, et 
a2) on applique un filtre num&ique sur lesdits echantillons, adapt6 pour minimise! une 

probabilite d'obtention de l'6tat "indeteimine" pour les signatures numeiiques associees 

aux paquets d^chaniillons. 

Avantageusement, Implication dudit filtre numfaique revient a : 

- appliquei une transformee spectiale aux donnSes echantillonnSes, 

- appliquei un filtre passe-bas a iadite transform^ spectiale, 

- et appliquei une transform^ spectiale inverse apres ledit filtre passe -bas. 

Ce filtre passe-bas opere preferentiellement sur une bande de Sequences comprenant 
sensiblement rinteivalle : 

[-Fe/2(k-l), 4Fe/2<k-l)L 
oil Fe est ladite frequence d^chantillonnage, 
et k est le nombre d'echantillons que compoite un paquet 

Avantageusement, le filtre num&ique compoite un nombre pred6teimin6 de coefficients de 
meme valeur, et la reponse fi equentielle du filtre passe-bas assocte s'exprime, en fonction de la 
Sequence f, pai une expression du type : 

sm(PI,f.T)/{PLf.T), 
oil sinO est la fonction sinus, et avec : 

- PI 3,1416, et 

- T=(K"1)/Fe oil K est ledit nombre pred£teimine de coefficients et Fe ladite frequence 
d'echantillonnage. 
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Preferentiellement, Ie filtre mimeiique est un filtre a valeui moyenne dto nombre 
predetermine de coefficients, et en ce que la difference entre deux echantillons filtres 
successifs est proportionnelie a la difference entre deux echantillons non filtres, 
respectivement d'un premier rang et tfun second rang, espaces dudit nombre predetermine de 
coefficients, et en ce que Ie calcul desdits echantillons filtres est effectue en exploitant cette 
relation pour require le nombre d'operations de calcul a effectuei 

Le nombre pr6deteimin<§ de coefficients du filtre est preferentiellement supeiieur ou egal a 
2k- 1, ou k est le nombre d'echantillons que compoxte un paquet, valeur qui pourra etre 
designee par la suite par le tenne rapport d'index ,. 

Preferentiellement : 

- Ktat "vrai" est afiecte a l'adresse d\m paquet si, pout ce paquet, tous les echantillons 
filtres ont une valeur supfrieure a une valeur de reference choisie, 

- l'etat "faux" est affecte a l'adresse d*un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeui infeiieuie a une valeui de reference choisie, et 

• I'etat "indeteimin6 M est affect a l'adresse d'un paquet si, pour ce paquet, les echantillons 
filtres ont, pour certains, une valeui inf6iieure a ladite valeui de reference, et, pour d'autres 
Echantillons filtres, une valeui supeiieure a ladite valeur de reference , 

Avantageusement, pour tout echantillon filtre r n , d'ordre donne n, ladite valeui de reference est 
calculee en moyennant les valeurs des echantillons non filtres f*, sur un nombre choisi 
d'echantillons consecutifs non filtres autour d'un echantillon non filtre f a , du meme ordre 
donn6 n* 

Les valeuis des Echantillons filtres sont preferentiellement lamenees, pour- comparaison, a une 
valeui seuil nulle, et les echantillons filtres i J n s'expriment alois par une somme du type : 

oft : 

- f n +jk sont des echantillons non filtres obtenus a Petape al), 

- K est le nombre de coefficients du filtre numerique, preferentiellement choisi pair, et 
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- est ledit nombre d'Schantillons non filtres autour d T un echanullon non filtre f„, 



Dans une realisation avantageuse, on applique la somme piecitee aux echantillons non filtr6s f n 
une plurality de fois, selon un faaitement effectue en parallele, en faisant varier respectivement 
le nombre de coefficients K. Cette mesuie peimet alors de deteiminer une plurality de 
signatures numeiiques, sensiblement independantes statistiquement 

Dans une realisation paiticuliere, les etats flous associSs au premier fichiei au moins sont 
codes chacun sur au moins deux bits 

Dans cette realisation, les etats flous determines pom un nombre de coefficients K le plus 
faible sont codes sur des bits de poids le plus faible et les 6tats flous deteimines pour un 
nombre de coefficients K plus grand sont codes sur des bits suivants, jusqu'a un nombre total 
choisi de bits. On comprendia que ce nombre choisi peut etre adapte avantageusement a la 
taille des donnees binaires utilisee par les microprocesseuis d'entitSs infoimatiques pour des 
op6i , ations logiques de compaiaison. 

Pi6ferentiellement, chaque 6chantillon filtre" r« s'expiime comme une somme du type : 



- f(n+o sont des echantillons non filtres, 

- filtres sont des coefficients d*un filtre numerique, integrant, le cas echSant, une valeur seuil 
ramenee a zero, 

et Ton choisit un nombre k d'echantillons non filtr&s que compoite un paquet, au minimum egal 
a 2 et inffirieui ou egal a une expression du type : 

(TEF-Ii -I*fiy2 ( ou TEF est une taille minimale souhaitee des extiaits conimuns recherches 
Cette mesuie peimet avantageusement d'assurer un recoupment d'un paquet de k donnees 
utilisdpoui le calcul dhine seule donnee de signature numenque, 



prefer entiellement choisi pair et superieur audit nombre de coefficients K 
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Dans cette realisation, 

- pour une valeur donnee TEF de la taille ininimale souhaitee d'extraits communs 
recherches, on determine une plage de valeurs utilisables pour Iedit nombre k 
d'echantillons non filtres que compoxte un paquet, 

5 - et, poui' chaque valeur utilisable du nombre k, on deteimine une taille optimale TES d'une 
succession de donnees de signatures numeiiques poui' laquelle la detection d'un extiait 
commun de taille TEF est gaiantie . 

Ladite taille optimale TES est alois inf6iieure ou egale h une expression dn type : 

E[(TEF-I r I 2 + l)/k]-l, oil E(X) designe Iapaitie entiere de X, 

10 

Poui une application ou les deux fichieis a comparer component des donnees representatives 
de cai acteres alphanumeiiques, notamment du texte et/ou nn code infoimatique ou genetique, 
le proc£de compoite avantageusement : 

- un premier groupe d'etapes compoitant la foimation des signatures num6riques et leur 
15 comparaison, poui une recherche grossiere, et 

- un second groupe d'etapes, notamment pour une recherche fine, comportant une 
comparaison a Tidentique dans les plages d'adresses veiifiant la comparaison grossiere, 

On considfere alors les donnees d'un fichier en tant que suite d'echantillons, avec un nombre 
choisi k d'echantillons par paquet, la valeur de ce nombre choisi k etant optimised initialement 
20 en recherchant un minimum d'op&ations de comparaison a effectuer, 

Poui Foptimisation du nombre choisi k d'echantillons par paquet, on tient compte 
avantageusement dW nombre total : 

- d'operations de comparaison de signatures numeriques & effectuer, et 

25 - d'operations de comparaison de donnees a Tidentique a effectuer ensuite, 

ce nombre total d'operations e"tant minimum poui un ensemble fini de nombres k. 

Le piocede prevoit avantageusement une etape au cours de laquelle on obtient une infoimation 
relative a une taille minimale souhaitee d'extraits coinmuns recherches, utilisee poui optimise! 
30 ledit nombre choisi k d'echantillons par' paquet Ce nombre optimal k d'echantillons par paquet 
vaiie alors sensiblement comme ladite taille minimale, de sorte que plus la taille niinimale 
souhaitee d'extraits communs recherches est giande, plus le nombre total d'operations de 
comparaison diminue, et done plus la duree de la recherche d'extr ait commun est couite. 
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Pour d'autres applications telles que la recherche de contenu de fichieis audio, video, ou 
autres, la recherche d'extraits communs consiste prefeientieHement en un unique groupe 
d'etapes compoitant la formation des signatures num6riques et leur comparaison. Le nornbre de 
5 donnees par paquet est alors optimist en se fixant initialement un indice de confiance 
caracterisant un seuil acceptable de probabilite de fausse detection d'extraits communs . 

Dans un mode de realisation general preierS, pour le premier fichiei : 

on applique 1'echantillonnage a une frequence d'echantillonnage choisie, 

- le filtiage numerique correspondant a un filtrage passe -bas dans Tespace des frequences, et 
la combinaison des echantillons filtres poui obtenii des signatures numeiiques a l'etat 
"vrai", "faux" ou "redetermine", associees aux adresses iespectives du premier fichier, 

tandis que, poui le second fichiei : 
on applique rechantillonnage k une S equence d'echantillonnage choisie, 
le filtiage numerique coirespondant k un filtrage passe-bas dans Tespace des frequences, et 
on determine r<5tat logique associe a chaque paquet d'echantillons filfces k paitir de l'etat 
logique assocte a un seul echantillon filtrS choisi dans chaque paquet (de maniere 
pref6rentielle comme etant le premier echantillon de chaque paquet), 
de maniere k obtenii des signatuies numeiiques ne comportant que des 6tat logiques "vrai" ou 
"faux" et ainsi k ameliorer la selectivity de la comparison des signatuies numeiiques , 

Dans cette realisation, 

si l'Stat logique associ6 k une adresse du premier fichiei' est "vrai" ou "md&ermine", tandis 
que l'etat logique assocte k une adresse du second fichiei est "viai", le couple desdites 
25 adresses est retenu poui la recherche d'extrait commun, 

- si l'etat logique associe k une adresse du premier fichiei est "faux" ou n indetermin6 ,, , tandis 
que Tdtat logique associe k une adresse du second fichiei est "faux", le couple desdites 
adresses est retenu poui la recheiche d'extrait commun, 

tandis que Ies autres couples d'adresses sont exclus de la recherche. 

30 

Bien entendu, le procedfi au sens de la presente invention est mis en ceuvre par des moyens 
infoimatiques tels qu'un produit programme d'ordinateur, decrit plus loin, A ce litre, 
^invention vise aussi un tel produit programme d'ordinateur, ainsi qu'un dispositif, tel qu'une 
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entire infoimatique, comportant un tel programme dans Tune de ses memoiies, L'invention 
vise aussi un systeme d'entitSs informatiques de ce type, communicantes, comme on le verra 
plus loin, 

Ce programme d'ordinateur est capable notamment de generer une signature num6rique d'uh 
fichier de donnees binaires, cette signature numferique &ant ensuite comparee a nne autre 
signature pour la recherche d'extiait commun. On comprendia que la signature numeiique 
d'un fichier quelconque de donn6es, elaboree par le precede au sens de Tinvention, est un 
moyen essentiel pour mener Petape de compaiaison, A ce titre, la presente invention vise aussi 
la structure de donnees de cette signature numeiique,. 

D r autres caract&istiques et avantages de Invention apparaitront k Texamen de la description 
d&aillee ci-apr&s, et des dessins annexes sur lesquels : 

la figure 1 resume sensiblement les piincipales Stapes de recherche fine, 

- la figure 2A represente schematiquement Pagencement d*un tableau bidimensionnel pour 
la compaiaison de deux fichiers de donnees, en fonction des adresses des donnees de ces 
deux fichiers, 

la figuie 2B represente schematiquement un tableau bidimensionnel pour la compaiaison a 
Tidentique de deux fichiers texte «Des moutons» et «Un mouton>\ 

la figuie 3 represente la correspondance entre les adresses de donnees et les adresses de 
blocs de donnees obtenus apres elaboration d'une signature numerique, ici pour un rapport 
d' index qui vaut 4, 

la figure 4A represente un tableau bidimensionnel pour la compaiaison des signatures 
numeiiques de deux fichieis texte «Des mouton$» et «Vn moutom> y avec un rapport 
d'index de 2, 

- la figure 4B represente un tableau bidimensionnel pour la comparison a Tidentique, fine 
et qui suit en piincipe l'6tape de recherche grossifere de la figure 4A, des deux fichiers 
texte «Des moutonsto et «Un mduton» f 

- les figures 5A et 5B reprdsentent xespectivement les tables de veiite des fonctions « OU » 
et « ET » en logique binaire, 

la figuie 5C represente un tableau de codage des etats flous sur deux bits BO et B 1 , 
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- les figures 5D et 5E repiesentent respectivement les tables de veiite des fonctions « OU » 
et « ET » en logique floue (par application de la loi de codage d'etats flous de la figure 
5C), 

- les figures 6A et 6B represented respectivement les valeurs des etats en logique binaire 
associees aux donntes d*un fichier en fonction des adresses de ces donnees dans le flchier 
et les valeurs des etats en logique floue associees globalement k ces donnees en fonction 
des memes adresses (la fonction « OU » en logique floue ayant 6t6 appliquee ici dans 
chaque bloc de donnees entre les etats Iogiques associes a chaque donnSe d'un bloc), 

- les figures 7A, 7B et 7C represented des tableaux de determination d'etats binaires et flous 
a partir d'exemple de fichiers texte Pom ces exemples, les 6tats binaires sont d&erirrines a 
paitir de la loi suivante : 

- 0 si la vaieur entiere du code ASCII du caractere est strictement infer ieure 4 111, 
« 1 la vaieur entiere du code ASCII du car actere est superieure ou egale a 1 1 1 ; 

- la figure 7A est un tableau repr6sentant les dif ferents etats flous assoctes a un flchier texte 
«La £oriue» pour ctifFerentes valeurs du rapport d'index, 

la figure 7B repr&ente des tableaux dormant respectivement les signatures numeriques 
associees aux fichiers respectifs «Le lievre» et la «La tottue», pour un rapport d'index 
de2, 

- la figure 7C represente un tableau comparant les signatures numeriques de la figure 7B 
pour la recherche d'extraits communs, 

- la figure 8A represente une fonction cosinusoide a difl&entes phases en fonction d'une 
variable t/T oi T est la periode de la fonction, 

- la figure 8B represente la determination de F4tat de logique floue associe" ponctuellement a 
une vaieur de la variable t/T par application pour l'ensemble des valeurs appartenant au 
segment [t/T,t/T4p] d\me combinaison logique entre les etats binaires obtenus a partii' du 
signe de la fonction cosinusoide, 

- la figure 8C repr&ente les variations des etats de logique floue qui sont determines pour 
chaque vaieur de la variable t/T par application pour 1 Pensemble des valeurs appartenant au 
segment [t/T,t/T+p] d*une combinaison logique entre les etats binaires obtenus k partii du 
signe de la fonction cosinusoide, 

les figures 9 A a 9C repiesentent respectivement les probability de triage de I'&at flou 
« 1 », de T6tat flou « 0 » et de l'Stat flou « ? », en fonction de la frequence f assodtee k une 
cosinusoYde et en fonction de la taille p des segments, 
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- la figure 10 repr&ente les variations de la fonction f(t/Te) qui est obtenue par interpolation 
des valeurs piises pax les echantillons f n du fichiei texte «Le liev?e» (la couibe en traits 
pointilles represente la contribution de l'Schantillon a la constiuction de la couibe 

- la figure 1 1 repr&ente les probability de tiiage de l'etat flou « 1 » (ou encore de Tetat flou 
« 0 »), en fonction de la frequence £ avec un iappoit d' index de 3, 

- les figures 12A et 12B represented les probability de tiiage de Tetat flou « 1 » (ou encore 
de F£tat flou « 0 »), en fonction de la frequence f, avec des rapports d'index respectifs de 
2 et de n (n>2), 

- la figure 13 represente schematiquement les difi&rentes etapes d'echantillonnage et de 
filtrage mises en ceuvre pour obtenir une signatuie numeiique 

- la figure 14 repr&ente les allures, en valeur absolue, de fonctions de filtrage Filtre(K,f) - 
Emoy(K,f) (integrant la prise en compte d'une valeur moyenne de K Echantillons autour 
d'un echantillon central), pour quelques valeurs de K, en fonction de f/Fe, 

- la figure 15 represente les reponses fr6quentielles des fifties numeriques par defaut ajustes 
pour un iappoit d'index k = 5, avec plusieurs valeurs du paiam&re interv deciit dans la 
description ci-apres, 

- la figure 16A repr6sente les adresses d'Schantillons f n de donnees auxquelles a et6 applique 
un 6chantillonnage 3 les adresses d'echantillons r n auxquels a et6 applique un filtrage 
numeiique et enfin les adresses de blocs de la signature numeiique obtenue par 
combinaison (« OU » en logique floue des 6chantillons r n filt &), 

- la figure 16B represente les conditions de recouvrement des blocs de donnees associ& au 
calcul des donnSes de signatures num&iques par les donn6es d'un extrait HXT k rechercher 
dans un fichiei 1 de donnees, 

- la figure 17 repr&ente le nombre de comparaisons h effectuer en fonction du iappoit 
d'index k, pour une recherche grossi&e (Total 1), pour une recherche fine ensuite (Tota!2), 
et pour Fensemble des deux recherches (Total3), et, dans l'exemple d'une recherche 
d'extraits communs de taille minimale de 1000 caracteres entre deux fichieis de taille de 
lOOKoctets, 

- la figure 18 repr&ente un systeme d'entites infoimatiques cornmunicantes pour la mise en 
ceuvre d'une application avantageuse de F invention, 4 la mise & jour de fichieis 
infoimatiques a distance, 
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la figure 19A repr&ente une copie d'ecran d'une boite de dialogue dans le cadre d'une 
interface homme machine d'un progiamme infoimatique au sens de 1' invention, pour une 
recherche d'extraits communs entre deux fichiers textes, 
- la figure 1 9B repr6sente une copie d*ecran indiquant 1'evolution de la recherche, 

la figure 19C repr6sente une copie d'ecran pour une recherche d'extraits communs entre 
deux fichieis audio, 

la figure 19D repr&ente une copie d'ecran pour la creation de fichier de signature 
mim&ique elabore a paitir d'un traitement en temps reel de signaux audio. 

Le precede au sens de ^invention consiste k comparer entre eux des fichiers infoimatiques afin 
d'y rechercher tous les extraits communs possibles. L'examen poite directement sui la 
representation binaire des donnees qui constituent les fichiers et, avantageusement, ne 
necessite done pas une connaissance pr^alable du format des fichiers,. D'ailleuis, les fichieis i 
comparer peuvent etre de nature quelconque, comme par exemple des fichiers texte, des 
fichiers multimedia comportant des sons ou des images, des fichiers de donnees, ou autres , 
Chaque fichier est represents sous la forme d'un tableau a une dimension dans lequel les 
donnees binaires sont rang^es avec le meme ordre que celui utilis6 pour un stockage sui' 
disque. Les donnees binaires sont des octets (mots de 8 bits). Le tableau est done de mSme 
taille que celle du fichier; en octets , Chaque case du tableau est ieperee par une adresse, Selon 
les conventions utilisees en piogrammation, Tadresse 0 pointe sur la premiere case du tableau, 
1' adresse 1 sui' la case suivante, et ainsi de suite. 

On entend par « exirait », notamment dans la formule « extrait commun », ce qui suit. II s'agit 
d'une sequence de donnees cons&utives qui est obtenue par 1 recopie des donnees binaires d'un 
fichier en paitant d'une adresse de debut, determine, Cette sequence est elle meme 
representee sous la forme d'un tableau de donnees binaires auquel on associe une adresse de 
debut qui perrnet de rcpfrer I' extrait dans le fichier d*origine. On indique que les donnees 
binaires sont des octets (mots de 8 bits). Chaque donnee est representee par le nombre entiei 
(compris entre 0 et 255) qui est obtenu par addition en base 2 des bits de l'octet : 

B 0 + 2 1 Bi + „. + 2 7 B 7 

Le tableau a done bien la meme taille que celle de Textrait (en octets), Cette taille d'extrait 
peut 6tre comprise entre 1 et celle du fichier. 

Dans Texemple d'un document stocke dans un fichier en foimat texte, un extiait pouira etre 
par exemple un mot, une phrase ou une page de texte, 
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Pour le procdde au sens de Invention, on entend par « exit ait commun a deuxflchiers » ce qui 
suit. II s'agit d'une sequence de donn6es consecutives dont le contenu est fixe et qui peut etre 
obtenue soit par recopie des donnees binaires du premier fichier en partant d'une adresse de 
debut determine, soit pat recopie des donnges binaires du deuxieme fichier en partant d'une 
autre adresse de debut determine, En d'autres teimes, si Ton preldve sur chaque fichier un 
extiait a paitir des positions de d&mt rep6rees, la condition d'extrait commun sera atteinte si il 
y a identity paifaite des contenus poites par la pr emise donnee binaire de chaque extrait, puis 
de ceux poit£s par la donnee binaire suivante, et ainsi de suite, Typiquement, dans le cas de 
fichiers en format texte, chaque octet porte le code ASCII d'un caractere irnprimable (alphabet 
latin, chiffie, ponctuation, et autres) L'identite parfaite des contenus de deux octets equivaut 
done k une identit6 parfaite des caiacteres cod6s par ces octets, Tout extiait commun trouv6 est 
rep&6 par un couple d'adr esses de debut (une par fichier) et par une taille expiim<5e en nombre 
d'octets, 

On d6ciit ci apres un exemple d'extrait pris sur un fichier texte court, Le texte choisi est «Le 
lievre et la tor tue», Sa representation sous la forme de fichier en mode texte est representee h 
titre d'exemple sur le tableau ci-apres La taille du fichier est de 22 octets- Les donnSes 
binaires (octets) poitent les codes ASCII qui sont assoctes k chaque caract&e du texte et sont 
afxichees en mode entier.. 
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Caractere du texte 


L 


e 




I 


I 


a 


V 


r 


e 




e 


Nombre entier du code ASCII 


76 


101 


32 


108 


105 


232 


118 


114 


101 


32 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


a 


9 


10 














Caractere du texte 


t 




I 


a 




t 


o 


r 


t 


u 


e 


Nombre entier du code ASCN 


116 


32 


108 


97 


32 


116 


111 


114 


116 


117 


101 


Adresse des donnees 


11 


12 


13 


14 


15 


16 


17 


18 


19 


20 


21 



L'extiait «lievre» se trouve dans le fichier. Sa representation sous la foime d'un tableau de 
donnees est sur le tableau suivant H occupe 6 donnees binaires. Sa position de debut dans le 
fichier est I'adresse 3. 



Caractere de Textralt 












■V > r : ; 


Nombre entier du code ASCII 






Sill 






ior- 


Adresse des donnees 


0 


1 


2 


3 


4 


5 



WO 2005/101292 



PCT/FR2005/000673 



12 

On deciit maintenant un exemple d'extiaits communs a deux fichiers texte courts. Les textes 
choisis sont «Le Uevre» et «La toriue», Les representations sous la forme de fichieis en mode 
texte sont celles du tableau ci-apres, La taille de chaque fichier est de 9 octets. Les donnees 
binaires (octets) sont affichees en mode entier,, 



Caractere du 1* r texte 


L 


e 




I 


i 


e 


V 


r 


e 


Nombre enWer du code ASCII 


76 


101 


32 


108 


105 


232 


118 


114 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


i 6 


6 


7 


8 




Caractere du 2* m9 texte 


L 


a 




t 


0 


r 


t 


U 


e 


Nombre entier du code ASCII 


76 


97 


32 


116 


111 


114 


116 


117 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 



II y a done cinq extraits communs aux fichieis, lis sont pr&entes par ordre croissant d'adresses 
de d6but sur le premier' fielder : 

«L»: position (0, 0) et taille 1 

«e»: position (1, 8) et taille 1 

« »: position (2, 2) et taille 1 (caractere « espace ») 

«r»: position (7, 5) et taille 1 

«e»: position (8, 8) et taille 1 
On indique que les caracteres «L» et «/» sont distincts. cat les valeurs de leurs codes ASCII 
sont diffSrentes ,. 

Afin d'6vitei une profusion des r&ultats de recherche, on utilise comme cxitere de selection 
une valeur de la taille minimale des extiaits communs a trouvei; On comprend facilement que 
la probability de trouvei des extiaits diminue quand la taille des extiaits k rechercher 
augmente. En consequence, si Ton compare deux fichiers entre eux, le nombre d'extraiis 
communs trouves diminueia quand on augmente la taille minimale des extraits a trouvei . 
Dans le meme but, on essaye par ailleurs d'eliminer les r6sultats de recherche qui se 
rccouvrent entre eux* Ce fctaitement est conseille mais n*est pas indispensable, Sa mise en 
ceuvre complete necessite en effet de m&noriser 1'ensembie des resultats de recherche afin de 
pouvoir en eliminer ceux qui sont recouveits par d'autres resultats de recherche. 
On dScrit ci-apres un autre exemple d'extiaits communs k deux fichiers texte courts,, Les textes 
choisis sont «Un mouton» et «Des moutons». La taille minimale des extiaits communs 
recherchfe est de 6 octets* Les donnSes binaires (octets) sont affichees en mode entiei 
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Les representations sous la foime de fichieis en mode texte sont sur le tableau ci-apres 



Caraclere du i v texte 


| U 


n 




MPS 


w 














Nombre entierdu code ASCII 


85 


110 


32 


109 


111 


117 


116 


hi 


110 






Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 














Caractdredu2 in " texts 


D 


0 


8 




mm 












s 


Nombre entler du code ASCII 


68 


101 


115 


32 


109 


111 


117 


116 


111 


110 


115 


Adresse des donness 


0 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 



On trouve un extiait commun aux fichiers: « moutom> h la position (2, 3) et de taille 7 . 
Comrne indiqu6 ci-avant, le caractere « » (espace) est tiaite comme une donnee Deux extiaits 
communs de taille 6 sont 61imines des i6sultats de recherche car ils sont recouveits par 1' extiait 
« mouton» de plus giande taille (7).. II s'agit de : 

« mouto»: position (2, 3) et taille 6 

«mouton»: position (3, 4) et taille 6 

Ces principes de base etant d£finis, on deciit maintenant un algoiithme de recherche dit 
« classique » et utilisant lesdits piincipes, Gldbalement, la strategie de recherche mise en 
ceuvie est d'examinet tons les couples possibles de positions de debut que peut prendre un 
extiait commun sur les deux fichiers k comparer. On deiinit par le terme « classique » 
I'algorithme deciit ici. Toutefois, cette definition n*entend pas necessairement qu'il puisse se 
retrouver dans l'etat de la technique., n faut simplement comprendre que ralgorithme au sens 
de la present© invention efFectue des operations supplementaires, notamment d'elaboration de 
signatures numeriques, qui seront deciites plus loin. 

Pour chaque valem de couple de positions de d6but (une position de debut pax fichiei), une 
comparaison est effectuee entre les extiaits qui peuvent Stre preleves sui chaque fichiei, Cette 
comparaison indique si la condition d'extrait commun est atteinte et determine la taille 
maximale de Textiait commun trouve pour le couple de positions de debut consideie. Le cas 
echeant, cette taille est enfin comparee & la valeur de la taille mimmale des extraits communs k 
trouver. 

Pour tout couple de positions de debut sur les fichieis, une mSme succession d^tapes est 
utilisee pour identifier l'existence d'un extrait commun, Les couples de positions de d£but sont 
testes avec Tordie pr6d6fini suivant : 

- d6but de V analyse avec le couple de positions de ddbut (0,0), 
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ordre croissant des positions de debut sur le premier fichier, et ordre croissant des 
positions de debut sur le deuxieme fichier pour tous les couples ayant la m£me position de 
debut sur le premier fichier, 

- fin d'analyse pom le couple de positions (dernifere donnee du premier fichier, deiniere 
5 donnee du deuxi&ne fichiei), 

■■ le couple (n,m) repere finalement la position de d£but n sur le premier fichier et la position 

de d6but m sur le deuxifeme fichier 
Dans le cas oil la recherche a ete anfetee pour afficher un extrait commun tiouve a la position 
(n, m), la recherche d'autres extraits communs reprend & paitir du couple de positions de debut 
10 suivant : 

- (n, m+1) dans le cas g6n6ral, ou 

(nH, 0) dans le cas paiticulier oix la position m-H d^passe la deini&re donnee du 2eme 
fichiei et oii la position nH ne d6passe pas la demiere donnee du premier fichier 
En se r6f&ant a la figure 1, on fixe ainsi un couple de position de d6but d' extrait k tester sur les 

15 deux fichiers (etape 11). On compare ensuite les premieres donn6es de chaque extiait (6tape 
12) En cas d'identite, on poursuit la comparaison avec les donnees suivantes de chaque extrait 
(etape 13) Sinon (dans le cas oil aucun extiait commun n'est trouve), les comparaisons 
s'airetent (etape 14), On r&tfere les m6mes etapes pour les deuxiemes donnees de chaque 
extrait (etapes 15, 16 et 17), et ce, jusqu'aux nifemes donnees (etapes 18, 19 et 20). Par 

20 exemple, la comparaison peut se terminer si la taille d* extiait est atteinte pour la valeur n 
(etape 21) 

On deciit ci-apres une representation bidimensionnelle utilisant un tableau r epresent^ en figure 
2A. 

L'axe vertical Al poite les adresses des donnees du premier fichier L'axe horizontal A2 poite 
25 les adresses des donn&s du second fichier . Chaque case (m,n) du tableau reprisente un couple 
de position de dfebut a 6valuer poui rechercher un extiait commun. 

Pour I'exemple, la taille du premier fichier vaut 6 (adresses 0 k 5) et celle du second fichiei 
vaut 10 (adr esses 0 a 9) Les fleches F dans le tableau indiquent le sens de d£placement qui est 
utilise pour tester Tensemble des couples possibles de positions de d6but d'extraits communs 
30 a trouvei* 

L'exernple represents sur la figure 2B porte sur la recherche d'extraits communs de taille 
minimum 6 entre les textes «Un mouton» et «Des moutons»> L'axe vertical Al porte les 
adresses des donnees du premier fichier («Un mouton»)> L'axe horizontal A2 porte les 
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adresses des donnees du second fichiei («Des moutons») Les cases giisfes indiquent Textrait 
commun trouve « mouton» de taille 7 (incluant Pespace precedant le mot), commengant par Ie 
couple de positions de debut (2,3) 

Comme les outils de programmation informatique imposent des contiaintes sui la taille des 
5 tableaux de donnSes pouvant Stre utilises dans des programmes, un programme infoimatique 
reprenant cet algoiithme procede prefeientiellement a une decoupe prealable des fichiers en 
blocs de donn6es consecutifs de taille r6duite (la decoupe tient compte des recouvrements 
necessaires entre blocs petmettant de garantir le test de Fensemble des couples de positions de 
d6but d'extraits communs a recherchei). L'algoiitbme est ensuite appHqu£ sui Tensemble des 

10 combinaisons possibles de couples de blocs de donn6es, L'oidre de compaiaison des couples 
de blocs de donn6es est analogue a celui decrit precedemment, a savoir pai les couples de 
positions de debut d'extraits, Mais, simplement ici, la compaiaison poite sui des blocs de 
donnees plutdt que de poitei sur des donnees isolees. Typiquement, le premier' bloc du premier 
fichier est compar6 au premier bloc du deuxieme fichiei, puis aux blocs suivants du deuxieme 

15 fichier, Le bloc suivant du premier fichier est compare ensuite au premier bloc du deuxieme 
fichiei, puis aux blocs suivants du deuxieme fichiei, ...... et ainsi de suite jusqu'a atteindre Ie 

dernier bloc de chaque fichier. 

En termes de performances, le temps d'exdcution du progiamme moteui de recherche en mode 
«plein texte» (c'est-a-dire par analyse de l'int6gralit£ du contenu des fichiers) depend 

20 essentiellement du nombre de comparisons a effectuer entre donnSes, Ce parametre est le plus 
important mais n'est pas le seul cat il faut tenir compte aussi de la vitesse de tiansfert des 
donnees entre disque et m&noire vive (RAM), puis entre memoire RAM et microprocesseur, 
Le nombre minimum de comparisons a effectuer entre donn6es pour accomplir la recherche 
d'un extiait commun de taille 1 est 6gal au produit : 

25 (taille du premier fichiei) x (taille du second fichiei) 

Pour la recherche d'extraits communs de taille minimum n, on optimise Talgorithme de 
recherche pour eliminer les positions de fin de fichier des couples possibles de positions de 
debut a analyser, Dans ce cas, le nombre minimum de comparisons entre donnees a effectuer 
est ramene au produit ; 

30 (taille du premier fichier - n + 1) x (taille du second fichier - n + 1) 

Pour des fichiers de grande taille, la valeur de ce nombre reste proche de celle du produit des 
tallies des fichiers. 



WO 2005/101292 



PCI7FR2005/G00673 



16 



Le programme selon 1'algoiitbme de recherche classique utilise cette valeur pour estirner la 
durde totale et la vitesse de recherche par interpolation du nombre de couples de positions de 
debut dej& teste et du temps de recherche ecoule. 

On decrit maintenant l'algoxithme de recherche d'extraits communs au sens de la prdsente 
invention., 

Globalement, on cherche a ameliorer les performances de recherche en rdduisant le nombre 
d'opdiations de comparisons a effectuer entre donndes par rapport a V algoiithme classique., 
La ddrnaiche retenue ici est d'effectuer les recherches en deux passes., Une recherche grossidre 
sur les fichiers qui elitnine rapidement des portions de fichier qui ne component pas d'extraits 
communs. Une recherche fine sur les portions de fichier restantes en utilisant un algorithme 
voisin de l'algoiithme classique ddciit ci-avant Toutefois, comme on le vena plus loin dans 
certains cas de fichiers, la deuxieme passe n'est pas toujours necessaiie et s'utilise 
prefdrentiellement pour des fichiers de textes a comparer 

Pour la recherche grossidre, Palgorithme au sens de Invention met en. ceuvre un calcul 
avantageux de signatures numdriques sui les fichiers a comparer. Les « signatures 
numeriques » peuvent etre assimildes a des fichiers ou a des tableaux de dormees dont la taille 
est infdrieure a celle des fichiers desquels ces signatures sont issues 

Les signatures numeriques ont la propiidtd de pouvoir dtre utilisdes comme index des fichiers 
qui leui sont associds.. En outre, une relation mathematique permet de mettre en 
coirespondance un extrait quelconque d'une signature numerique avec une portion precise du 
fichier qui lui est associd. De plus, la position de ddbut d'un extiait de signature numdrique est 
en coirespondance avec un nombre fixe de positions de ddbut d'extraits sur le fichier qui est 
associd a la signature numdrique, Inversement, a partir d'une certaine taille d'extrait, tout 
extrait de dormees pris sui un fichier peut etre associd a un extrait de la signature numdrique 
Les signatures numeriques ont aussi la propridtd de pouvoir etre compardes entre elles pour 
identifier des extraits communs de signatures 

On indique toutefois que la ddfinition des extraits communs de signatures numeriques et les 
operations mathdmatiques utilisdes pour effectuer les comparisons de signatures numeriques 
sont differentes de celles qui ont dte decxites ci-avant pour la recherche d'extraits communs a 
des fichiers. Les proprietds d'index des signatures numdriques sont exploitdes pour interpreter 
les resultats de recherche d'extraits communs de signatures. En effetpour un couple de 
positions de debut determind (une par signature numerique), 1'absence d'extrait commun se 
traduit mathematiquement par une absence d'extiait commun entre deux portions de fichier 
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(une portion par fichier associe a chaque signature numeiique), A l'inveise, un extiait commun 
trouve entre deux signatures numeiiques se tiaduit par 1'existence possible d*un extrait 
commun entre deux poitions de fichiers (une poition par fichiei associe a chaque signature) .. 
La recherche des extraits communs entre fichiers n'est effectuee que sur les poitions de fichiei 

5 qui sont reperees par les resultats positifs de recherche d'extraits communs de signatures 
numeiiques. Tout extiait commun de signatures numeiiques est rep&6 par un couple de 
positions de debut dans chaque signature, et chaque position de debut dc signature est en 
conespondance avec une poition de fichiei d&imitee pax a un nombre fixe entiei (N) de 
positions de d£but dans le fichiei, Chaque extiait commun de signatures numeiiques trouve se 

10 tiaduit done pai une recherche d*extrait commun entre fichiers sur un jeu reduit de (N x N) 
couples de positions de debut a tester . A Traverse, chaque couple de positions de debut qui est 
caracteiise pai 1 une absence d'extrait commun de signatures numeiiques se tiaduit pai' une 
Sconomie de recherche d'extiait commun entre ficbieis sur un jeu de (NxN) couples de 
positions de d£but a tester. 

15 Le calcul des signatures numeiiques conditionne la valeur de taille minimale des extraits 
communs a tiouver entre fichiers. Le nombre fixe (N) de positions de debut d' extiait sur le 
fichiei en conespondance avec chaque donnee de signature numeiique est un parametre 
ajustable du traitement de calcul des signatures num&iques. 

La valeur de la taille minimale des extiaits communs de fichieis qui peuvent etre trouv£s avec 
20 ralgoiithme de recherche grossifere est d6termin£e a paitii de ce nombre au moyen d'une 
foimule math&natique que Ton d£ciira en detail ci-apres Cette valeur augmente quant cclle du 
nombre fixe N de positions augmente,. Ci-aprfes, on designe ce nombre N pai' le terme 
« rapport d'index ». 

On verra plus loin et en detail que ralgoiithme de recherche d'extraits communs de signatures 
25 numeiiques a quelques similitudes avec ralgoiithme de recherche classique d'extraits 
communs a des fichiers ., 

On indique simplement ici que la stratdgie de recherche mise en ceuvie est d'examiner tous les 
couples possibles de positions de debut que peut prendie un extiait commun sur les deux 
signatures num&iques a comparer. La taille minimale de Textrait commun de signatures 
30 numeiiques a trouver est deteiminee au moyen d'une formule math&natique que Ton decrira 
plus loin, a partii' de la valeur du rapport dMndex et de la taille minimale des extraits communs 
de fichiers a ti ouver. 
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Pom chaque valeui de couple de positions de d£but (une position de debut par signature 
numerique), une comparison est efFectuee entre les extraits qui peuvent etre preleves sur 
chaque signature mimeiique, 

Ainsi, globalement, ralgorithme au sens de Pinvention enchaine les etapes de recherche 
5 suivantes : 

• Une recherche grossiere entre fichiers, avec calcul d'une signature numerique par fichier k 
comparer et une compaiaison des signatures numeiiques h la recherche d' extraits 
communs de signatures numenques, et 

♦ Une recherche fine entre fichiers pour chaque extrait commun trouv6 de signatures 
10 numeriques, avec une mise en oeuvre de l'algorithme classique pour recheicher des extraits 

communs dans les portions de fichiers qui sont en correspondence avec les extraits 
communs de signatures numeriques. 

On dScrit maintenant le piincipe de Palgorithme an sens de ^invention, de facon plus d£taill6e. 
15 En se referant a la figure 3, Ie fichier de donnees DATA est decoupe" en blocs consecutifs BLO 
de donnees dont la taille est 6gale a celle du rapport d'index. Globalement, le calcul de 
signature numeiique associe une donnee de signature k chaque bloc de donnees du fichier. 
Dans ^illustration de la figure 3, le rapport d' index vaut 4 

20 On a represent6 sur les figures 4A et 4B des tableaux bidimensionnels d*une recherche 
d'extraits communs de taille minimale 6 entre les fichiers texte «Un moutonv* et «Des 
moutons» Dans cet exemple, le rapport d'index vaut 2, La signature numerique du premier 
fichier comprend 5 donnees. La signature numerique du second fichier cornprend 6 donnees 
Les parties giisees de la figure 4A represented des extraits communs de signatures numenques 

25 ECS entre les deux fichiers (par exemple la reference 41), Typiquement, en se referant a la 
figure 4B, cette r&feience 41 corr espond a une zone de recherche rfiduite de 4 (2x2) couples de 
positions de debut d' extrait k tester 1 sur les fichiers* Cette zone de recherche rSduite est 
associee au couple (1,1) de positions de debut d'extrait commun de signatures numenques. 

30 On decrit maintenant de facon d£taiU£e des operations de calcul et de comparaison des 
signatures numeiiques. 

Le calcul des donnees de signatures num6riques utilise une theorie mathematique de logique 
floue. 
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Habituellement, la logique binaire utilise un bit de donnees pour coder 2 etats logiques, Le 
code 0 est associe a l'etat <<fatvc»> tandis que le code 1 est associe a Fetat «vrai»„ 
La logique binaire dispose d'un jeu d' operations logiques de comparison entre etats binaires, 
corame represent^ sur les tables de v&it6 des figures 5A et SB . 
5 Une donnee de 8 bits (un octet) peut stocker 8 etats binaires independants 

Comparativement k la logique binaire, la logique floue utilise deux etats supplementaiies qui 
sont T6tat indeteimine « ? » (& la fois viai et k la fois faux) et Fetat interdit « X » (ni viai et ni 
faux). 

Les 4 etats de logique floue sont codes sur 2 bits, comme represente sur la figure 5C, ou les 
10 inferences BO et Bl represented done un codage des etats sur 2 bits (axe horizontal), tandis 

que Faxe veitical represente les differents etats de logique floue « 0 », « 1 », « ? » et « X » . 

Une donnee de 8 bits (un octet) peut stocker ainsi 4 etats flous independants. 

La logique floue dispose d'un jeu d' operations logiques de compaiaison entre etats flous tels 

que repr^sentes sur les figures 5D et 5E, respectivement pour 1 le « OU » en logique floue et le 
15 « ET » en logique floue. Le resultat de ces operations est simplement obtenu en appliquant une 

compaiaison binaire OU ou ET k chaque bit de codage des composantes binaires des etats 

flous. 

On indique que, dans le contexte de Finvention, le calcul de signatures numeiiques utilise 
20 I' operation OU pour ddteiminei un etat flou commun k un bloc de donnees consecutives du 
fichiei associe k la signature.. Au depait, un etat binaire (0 ou 1) est associe k chaque adresse de 
donate, dans un bloc de denudes du fichiei* La taille du bloc de donnees est egale au xappoit 
d s index, comme indique ci-avant Les etats binaires sont ensuite compares entre eux pour 
determiner l'etat flou « 0 », « 1 » ou « ? » d'une donnee de la signature numerique. On associe 
25 ensuite une dona6e de signature numerique au bloc de donnees du fichiei. 

Ensuite, la compaiaison des signatures numeiiques, proprement dite, utilise F operation ET 
pour determiner s'il y a ou non possibilite d' avoir un extrait commun aux fichiers,. Les 
decisions sont done prises en fonciion de retat de logique floue qui est pris par le resultat de 
l'operation ET appliquee a des couples de donnees de signatuies numeiiques, 

30 

L'etat interdit X signifie qu*il n'y a pas d'exirait commun entre les fichiers dans les zones de 
donnees qui sont associees au couple courant de positions de debut d* extrait commun de 
signatures numeiiques (avec un bloc par donnee de signature numerique) . On decriia ce cas en 
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detail plus loin. Les Stats « 0 », « 1 » ou « ? » signifient inversement qu'il y a possibilitS 
d*extrait corrrmun entre les fichieis dans les zones de donnees qui sont associees au couple 
courant de positions de dSbut d'extrait commun de signatures numSriques 

En se rSfSrant aux figures 6A et 6B, les signatures numSriques sont calculees en deux Stapes : 
Une Stape de calcul d'une signature binaire en associant mi 6tat binaire 4 chaque adresse 
de donnSe du fichier. Les lois de calcul utilisSes petxnettent d'associer a reboms un extrait 
de fichiei de taille fixe 4 chaque Stat binaire, et 

- Une Stape de calcul d'une signature floue par compaiaison entre eux des Stats de la 
signatuie binaire sui des blocs de taille Sgale 4 celui du rappoit d'index, Chaque bloc de N 
Stats binaries consScutifs dSteimine un Stat flou , 

Dans Pexemple des figures 6A et 6B, le rapport d'index N vaut 2.. Sur la figure 6A, la 
rSfSrence Add identifie les adresses respectives des donnSes du fichiei FIC et la reference Valb 
identifie les Stats binaires associes respectivement aux adresses de ces donnees. Sui la figure 
6B, la meme reference Valb identifie les etats binaires associes respectivement aux memes 
adresses des donnees et la reference Valf identifie les etats en logique floue associes aux 
donnSes de la signature numSiique SN tiree du fichiei FIC* On compte un Stat de logique floue 
par bloc de N adresses, ou N est le rapport dMndex (ici N=2) . La succession « ? », « 0 », « ? », 
.. des etats de logique floue Valb de la figure 6B s'interprete typiquement ainsi : 

- les etats binaires « 0 » et « 1 » des deux premieres adresses du fichiei Stant differents, 
FopSration OU en logique floue appliquSe 4 ces Stats donne « ? », 

» les Stats binaires « 0 » et « 0 » des troisieme et quatiiSme adiesses du fichiei Stant Sgaux a 

« 0 », TopSiation OU en logique floue appliquSe 4 ces Stats donne « 0 », 
* les Stats binaires « 1 » et « 0 » des cinquieme et sixierne adiesses du fichiei Stant 

diffSrents, PopSration OU en logique floue appliquSe 4 ces etats donne encore « ? », etc. 
On dScrit ci-apxis des exeraples de calcul de signatures numSriques, avec un texte choisi «La 
tortue» , Chaque caract&re du texte est code sui un octet avec emploi du code ASCII Chaque 
code ASCII est reprSsentS par la valeur du nombre entier qui est code par les 8 bits de Poctet 
Ce nombre est compris entre 0 et 255. Les Stats binaires qui sont associSs 4 chaque adiesse de 
donnSe sont dSteimines, 4 titre d'exemple par une loi du type : 

- Stat 0 si la valeur entiSre du code ASCII du caractSre est stiictement infeiieure 4111, 

- et Stat 1 si la valeur entiere du code ASCII du caractfere est supSiieure ou Sgale 4111. 
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Le tableau de la figure 7A montre les resultats qui sont obtenus pour le calcul des etats flous de 
signatuie numerique avec differentes valeurs de rapport d'index, de 2 a 4, pour le fichier texte 
«La tortue»+ 

La figure 7B montre maintenant les resultats obtenus pom le calcul des etats flous de signature 
5 numerique avec une valeur de rapport d'index de 2, sui les deux fichiers textes «Le lievre» et 
«La tortu&y L'adresse de la donnee est celle de la position de debut de I'extrait La loi de 
deteimination des etats binaii es est celle decrite ci avant (valeur ASCII compai 6e a 1 1 1). 
Sui la figure 7Q on a iepr6sente un tableau bidimensionnel d'une recherche d'extraits 
communs entre les fichieis texte «Le lievre» et «JLa tortue», avec un iappoit d* index de 2 La 
10 loi de determination des Stats binaires qui sont associes a chaque adresse de donn^es est 
identique a celle 6noncee ci avant (valeurs ASCII a comparer a ill). On a reference par les 
sigles AD1 et AD2 les adresses de blocs respectifs tires du fichier «Le lievre» et du fichiei «La 
tortue» et par les sigles SN1 et SN2 les etats successifs en logique floue de ces blocs 
respectifs, Les cases non grisees indiquent les situations pom lesquelles il n'y a pas d' extiait 
15 commun de taille 1 entre les portions de fichiei qui sont associces aux donn£es de signatures 
num&iques. Les cases grisees indiquent au contiaire les situations pour lesquelles il peut y 
avoir un extiait commun de taille minimale 1 entre les portions de fichier qui sont associees 
aux donn^es de signatures numeriques , 

20 On d£crit ci-apr6s les lois matbematiques utilises pour le calcul des signatures numeiiques, 
dans une realisation preferee. La description qui suit complete la premiere 6tape de calcul 
precise d'une signatuie binaire de ralgorithme de recherche au sens de Finvention et decrit les 
lois math&natiques qui sont utiUsfies pour determiner les etats binaires qui sont associes a 
chaque adresse de donnee du fichier . Dans les exemples qui pr^cfedent, chaque 6tat binaire de 

25 signature numeiique est determine par une loi simple qui repose sui la comparaison de la 
valeur entifere (hi code de chaque octet du fichier avec une valeur entiere de reference.. L'int£r£t 
de cette loi est limits toutefois, car chaque donnee de signature binaire ne caiacterise a la fois 
qu'une seule donnee de fichier: L'inteipretation du rSsultat des comparaisons entre donu6es de 
signatures floues (qui sont obtenues a la seconde etape du calcul) se limite ainsi a T existence 

30 possible d'extoaits communs aux fichieis de taille L L'absence ou Texistence possible d'un 
extiait commun aux fichiers de taille superieure a 1 ne peut Stre detectSe par une seule 
operation de comparaison entre donnees de signatuie floue Pour remedier a cette situation, les 
lois mathematiques de determination des etats de la signature binaire sont choisies de maniere 
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a ce que chaque donnee de signature binaire caracteiise un extrait de taille preferentiellement 
fixe du fichier. La taille des extraits de donnees est un paiametre de la loi mathematique de 
determination des etats de la signature binaire. La valeur de ce paiametre est toujours 
superieure ou egale a celle du rapport d'index, Gr&ce k cette condition, le resultat d'une 
5 comparaison entre un couple de donndes de signatures floues peut s 'interpreter soit par 
Fabsence soit par I s existence possible d'un extrait comraun de fichier de taille au moms 6gale 
au rapport d'index (N) pamri le jeu (NxN) de couples de positions de d£but d 1 extiait commun 
de fichiei qui est assocte au couple de donnees de signatures floues. 

De mSme, un extiait commun trouv6 de taille K entre signatures num&iques s'interprete pai' 

10 1' existence possible d*un extiait commun de fichier de taille au moins egale k NxK parmi le 
jeu (NxN) de couples de positions de debut d'exirait commun de fichiei qui est associe au 
couple de positions de debut de 1' extrait commun trouv6 de signatures numeiiques* 
On comprendia aussi que la proportion d'&ats flous «?» augmente quand la taille du rapport 
d'index augmente En consequence, Petape de recherche d'extraits communs entre signatures 

15 numeriques devient beaucoup moins selective lorsque le rappoit d'index augmente. En effet, si 
les donnees d'une signature numerique sont toutes Sgales k Petat « ? », la comparison de cette 
signature avec une autre signature numeiique n'eliminera aucun couple de positions de debut 
d'extrait h rechercher sur les fichiers qui sont assocife aux signatures Pour remddier k cette 
situation, la loi de d&eimination des etats binaires doit £tre choisie de maniere k ce que 1'etape 

20 de calcul des etats flous (par comparaison de blocs d' etats binaires) g&ifere une faible 
proportion d*6tats « ? » et inveisement une proportion <Slev6e d'&ats «0» ou 
On ddcrit ci-apres un traitement pour ameliorer la s&ectivitd des signatures numeriques. Les 
explications qui suivent utilisent des r&ultats de theories rnathematiques des domaines de 
l'algebre des transformations et du traitement num6iique de signaux* 

25 On rappelle que la transformation de Fourier est une transformation maih&matique qui fait 
conespondre a une fonction f(t) de la variable t une autre fonction F(f) de la variable f selon la 
foimule suivante : 

P(0 « J* °°f (*) e- 2htft dt 
-co 

Une propria de la transformation de Fourier est la reciprocity peimettant d'obtenir k reborns 
30 la fonction f(t) k paitir de F(f) par la formule suivante : 

f(t)= P^e^df 
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Cette foimule indique que toute fonction reelle f(t) peut se decomposer en une somme infinie 
de fonctions cosinusoi'des pures de frequence f, d' amplitude 2\ F(f) | et de phase <p(f) , 

f(t) = J + °°2 ] F(f) | cos(2nft + <p(f)) df avec F(f) = j F(f) [ e mcp(f) 
0 

Les variations de la fonction cos(27ift + <p) sont representees sur la figure 8A pour diverses 
5 valeuis de la phase q>., La fonction est periodique et sa p&iode T est egale a l/t Elle est 
positive sur des intervalles de taille T/2 et negative sur des intervalles complementaires de 
taille T/2 

Cette derni&re piopriete va etre mise a profit pour le choix des lois de determination des 
signatures binaires On associe a la fonction s(t) = cos(2ftft + <p) une loi Etat a&p) de 

10 determination d'6tats flous a deux variables., On note T = 1/f , 

La loi Etat s (t,p) est defrnie pour toute valeiu reelle de t et pour toute valeui reelle positive du 
paiametre p (a rapprocher du iapport d' index precit£) : 
Etat s (t,p) = 1 si V x e [t, t4p] 5 s(x) > 0 
Etat a (t,p) = 0 si V x € [t, t4p]i s(x) < 0 

15 Etat s (t,p) » ? sinon 

Sur la figur e 8B„ on a repr£sente une fonction cosinusolde oi p est voisin de 0,6 X Pour tout 
intervalle [W+p], la fonction s(t) prend a la fois des valeuis positives et negatives, de soite que 
Etat B (t,p) - ? Ainsi, si le paiametre p est plus grand que T/2, on aura « Etat s (t,p) = ? », pour 
toutt 

20 On a represents sw la figure 8C les etats flous de la loi Etat s (t,p) pour des valeuis fixes de p 
comprises maintenant entre 0 et T/2 (p=O s 3T dans l'exemple repiesente). Les probability de 
tir age des etats flous sont obtenues en relevant sur un intervalle de taille £gale h la periode T (T 
= 1/f) la taille cumul6e des intervalles de la variable t qui produisent chaque etat flou possible 
(0, 1 ou ?), puis en divisant cette taille curnul^e pax T 
25 Ci-api 4s, les notations suivantes sont utilises : 
Probability de tiiage de P6tat 1: Pl(fip) 
Probability de tirage de 1' £tat 0: PO(fip) 
Probability de tirage de Tetat ?: P?(f;p) 
On obtient les rysultats suivants pour la loi Etat g (t,p): 
30 Pourp e [O.T/2] 

Pl(f,p) = PQ(f,p) = (T/2 - p)/T - 1/2 - p/T = 1/2 - pf 
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P?(f,p)=l-Pl(f J p)-P0(f;p) = 2pf 
Pour p plus grand que T/2 

pi(f,p)=po(f; P )~o 
P?(f,P) = i 

5 On rappelle encore que les probabilitAs de tiiage des etats flous ont AtA obtenues apres 
application a la fonction s(t) - cos(2jift + <p) de la loi Etat s(t,p) de dAteirnination d'Atats flous. 
On remarqueia aussi que la probability de tiiage des etats flous ne depend pas de la phase tp de 
la fonction s(t) = cos(27cft + cp) . 

En se iAferant aux figures 9A, 9B et 9C, la representation giaphique des vaiiations des 
10 probabilitAs Pl(f;p) P0(f,p) et P7(f ;p) en fonction de la frequence mootre que la probabilitA de 
tiiage des etats 1 et 0 croit quand la frequence f dirninue.. Inveisernent, la probabilitA de tiiage 
de l'Atat « ? » croit quand la frequence f augments 

On va chercher maintenant a appliquer cette observation a la comparaison de donnAes binaires 
au sens de Tinvention., 

15 L'Achantillonnage d'une fonction f(t) de la variable t consiste a relever les valeurs qui sont 
prises par cette fonction a des instants T„ qui sont espaces entre eux d'un intervalle fixe Te 
Les notations suivantes sont utilisees : 

n numAro d'Achantillon (entier compiis entre -oo et -to) 
T n instant de 1 ' & chantillon n: T a « n Te 
20 fn valeui de l'Acbantillon n: f n - f(Tn) 

Dans la theoiie du traitement du signal, le thAoreme de Shannon montre que l'original d'une 
fonction f(t) peut tee obtenu i rebours a partir des Achantillons f n si le spectre Sequential de la 
ftansformee de Fourier F(f) associee a f(t) est strictement bomA par rintexvalle [-Fe/2,Fe/2], 
avec Fe - 1/Te. 

25 Dans cette condition, la fonction f(t) est obtenue apres application d'un filtrage passe-bas idAal 
dans la bande de frAquence [-Fe/2, Fe/2] sur la transformAe de Fouiiei du signal AchantillonnA 

Pour la suite, on considere que les fichiers de donnAes prAsentent des Achantillons f n d'une 
fonction f(t) qui satisfait aux conditions preeAdentes, En particulier, chaque adresse de donnee 
30 correspond a un numAro d'Achantillon tl Chaque donnAe stocke la valeur d'un Achantilbn 
(typiquementun entier cod& sui les bits d'un octet). 
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La transform^ de Fourier du signal associe aux echantillons f n d'un fichier de donnees est la 
suivante : 

F(t)= *]f{tye- 2 "*dt, avec }{f)=f„ pour t = T„et f{t)=0 pour t * T n {ou T n = nTe) 

-co 

On noteia que le choix de la peiiode d J 6chantillonnage Te est libre ici 
La transfoimee de Fourier s'expiime aussi dans ce caa par la formule simplifiee suivante : 
n = N 

£(f) = 2 f n e ~ 2i7cfTn avec N + 1 = taiile du fichier de donn6es 

La transfoimee de Fourier F(f) de Toiiginal de la fonction fSfy qui est associee aux echantillons 
f„ s'obtient par application du theoreme de Shannon : 

F(f ) = F(f)/Fe pom f € [ -Fe/2, Fe/2 ] 

F(f) - 0 pour les autres valeurs de f 
La fonction f(t) qui est associee aux echantillons f„ est obtenue par application de la 
transformee inverse de Fourier, 

f(t)= J F(f)e^ ,7m df=J (F(f)/Fe)e^ n df 
-oo -Fe/2 

fFe/2 N 2infT n , »eft „ 

= J (E (f n /Fe)e n ) e df 
-Fe/2 n = 0 

n = 0 -Fe/2 n = 0 2faFe(t - nTe) - Fe/2 

et s'expiime fhratement sous la fonne d'une somrae finie de teimes en : 

f[x) » sin(x)/x, oil x = rcFe(t - nTe), soit : 

f(t) = 2 f n slnfaFeft-nTe)) =E W 
n = 0 7iFe(t - nTe) n = 0 

On a represents sur la figure 10 un exemple de representation de la fonction f(t) associee aux 
donnees du fichier texte «Le lievr e» t en fonction du rapport t/T . 

On indique que les relations precedentes entre une fonction f(t) et un jeu d'echantillons 
f n = f(nTe) s'appliquent pour toute fonction qui satisfait aux conditions de Shannon , 
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Biles s'appliquent done aussi pour la fonction s(t) = cos(2rcft + <p) si Ton verifie la condition : 
f e[-Fe/2,Fe/2] 

On peut alors representer s(t) par un jeu infini d'echantillons s„ pris sur s(t) aux instants 
t n =nTe 1( 

On xappelle la loi Etat s (t,p) precedemment definie pour toute valeui xeelle de t et pour toute 
valeur r£elle positive de p: 

Etat s (t,p) - 1 si V x € ft t4p], s(x) > 0 

Etat s (t,p) = 0siVxe ft Hp], s(x)<0 

Etat s (t,p) = ?sinon 

Les proprietes de cette loi peuvent etre simplement transpose dans le domaine des 
echantillons s n si Von s'inteiesse a la loi suivante de d&eimination d'etat flous definie sur une 
sequence de k echantillons consecutifs {s n , s^u s n+Jc .i} 

Etat B (n,k) - 1 si V i € {0, k-1}, s^j > 0 

Etat s (n,k) = 0 si V i € {0, k-1}, s n+i < 0 

Etat s (n»k) ss =?sinon 

Les probability de tirage des &ats flous assoctes a la loi Etat s (n,k) s'obtiennent simplement a 
partir de la loi Etat a ftp) en rempla9ant p par (k-l)Te 

On obtient ainsi la representation graphique des probability de tiiage des £tats 1 ou 0 de la loi 

Etat a (n a k) en fonction de la frequence de la fonction s(t) associee aux echantillons s n 

Dans l'exemple de la figure 11, k est fix£ a 3. La probability de tiiage de 3 echantillons 

consecutifs de s(t) tels que s(nTe), s((n+l)Te), s((n+2)Te) soient sup&ieurs a 0 est donn£e 

pai Pl(fi3), laquelle est nolle pour f superieure a l/2p avec p « (3-l)Te = 2/Fe, soit encore 

pouxf>Fe/4. 

On va etendre la definition des lois de determination d'itats flous au cas d'une fonction 
quelconque f(t) qui satisfait aux conditions de Shannon, Dans ce cas gen&al, la loi Etatfftp) 
est definie pour toute valeui r6elle de t et pour toute valeui reelle positive de p: 

Etat f(t ,p) - 1 si V x e ft tf-p] , f(x) > 0 

Etat iftp) = 0 si V x € ft Hp], fl(x} < 0 

Etati(t>p) = ?sinon 

Cette loi de determination d'etats flous est 6galement tianspos6e dans Ie domaine des 
Echantillons f n sin 1 des sequences de k echantillons consecutifs {f n , f n +t, Wi}- 

EtatKn,k) = 1 si V i € {0, k~l}, f^ > 0 

Etat Kn,k) - 0 si V i e {0, k-1}, f n+ i < 0 
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Etat 4 (n J k) = ?Sinoji 

Contrairement au cas particuliei deji traite oil f(t) est une sinusoids pure de frequence £ U n'y 
a pas de relation mathematique simple qui peimette de calculer ici les probabilites de tirage des 
etats flous k paitii de la tiansfoimee de Fourier F(f). 

On peut par contre s'inspirer des proprietes des probabilites de tirage des Stats flous associes 
aux lois Etat s (n,k) et Etat s (%p) pour dSduire que 1" application d'un filtrage passe-bas sui une 
fonction quelconque f(t) se traduit par V augmentation des probability* de tirage des etats 0 et 1 
et par la diminution de la pxobabilite de tirage de TStat ? qui sont associes aux lois Etatf(n,k) et 
Etatf(t,p)„ 

Dans le cas de la loi Etat j(n,k), on sait que si la fonction f(t) est une sinusoide pure de 
frequence f, on aura pour f > Fe/2(k-l) et k > 1 

Pl(f,k)=*P0(f,k) = 0 

P?(f 1 k)-1 

Si Ton applique un fdtiage passe-bas ideal dans la bande de frequences [ Fe/2(k-l), Fe/2(k-l)] 
a une fonction f(t) f on comprend que les probabilites de tiiage des etats 1 et 0 vont augmentei 
puisque chaque composante frequentielle Ri(£) du signal rdsultat r k (t) contribue au resultat 
final avec une probability individuelle non nulle de tirage pour les etats 0 ou 1. 
On peut demontrer cette assertion dans le cas d*une fonction de bruit a!6atoire b(t) pour 
laquelle V amplitude du spectre B(f) est constante dans la bande de Sequences [-Fe/2, Fe/2], 
Dans le cas d'une fonction de bruit aleatoiie b(t)» on sait que les probabilites de tiiage d'un 
echantillon sont : 

Pl b (fe=l) = P0 b (k-l) = l/2 

P? b (k~l)-0 
Pour 2 ecbanfiflons consecutife, on obtient: 

Pl b (k=2)-P0 b (k=2) = (l/2) 2 

P? b (k~2) = 1 - Pl b -POb = 1 - 2 x(l/2) 2 
Et poui n echantillons consecutifs, on obtient: 

Pl b (k=n) = P0b(k=n)-(l/2) B 

P? b (fc=n) = 1 - Plb -POb - 1 - 2 (l/2) n 
Ainsi, pour un grand nombre d'^chantillons successifs, les probabilites de tirage des etats « 0 » 
et « 1 » tendent vers 0 tandis que la probability de tiiage de Tetat indeteimine « ? » tend vers 1 
On considftre maintenant une fonction r n (t) qui est obtenue par application d'un filtrage passe- 
bas ideal a la fonction b(t) dans la bande de frequences [-Fe/2(n- l), Fe/2(n-l)]. On a alors 
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observe que la representation des spectres de R*(f), de Pl(f»n), de P0(fW et de P?(f,n) s'obtient 
par simple nomothetic des spectres de R 2 (f), de Pl(f,2), de P0(f,2) et de P?(f;2), comme le 
montrent les figures 12A et 12B „ On a represents aussi sur la figure 12A Pamplitude du spectre 
B{f) associe a la fonction b(t) . On a represent aussi sur la figure 12B 1'amplitude du spectre 

5 R*(f) associe £r n (t), 

On en deduit qu'il y a egalite entre les probabilites de tirage de n echantillons consecutifs du 
signal de biuit filtre r n (t) et ceile de tiiage de 2 echantillons consecutifs du signal de bruit non 
filtre b(t) . Les piobabilit6s de tiiage d'un £tat 1 ou d'un etat 0 pour n echantillons consecutifs 
du signal de biuit filtre r n (t) valent 1/4, tandis que la probabilite de tirage d'un Stat « ? » pour n 

10 Echantillons consecutifs du signal de biuit filtre i n (t) vaut 1/2 

En conclusion, on ameiiore la seiectivite des signatures numeriques en appliquant un filtiage 
passe-bas a la fonction f(t) qui est associee aux echantillons f n « f(nTe), 

Les etapes de tiaitement et les relations entre donnees de fichiers, echantillons et fonctions 
peuvent 8tre iesumees comme represent© sur la figure 13. A P etape 131, on recupere les 
15 donnees d n d'un fichier k tiaiter, lesquelles sont echantillonnees a retape 132 pour obtenii les 
echantillons f n qui sont des nombres entiers codes par les donnees d m Selon le theor&ne de 
Shannon (etape 132'), ces echantillons sont associ6s a une fonction f(t) de spectre F(f) borne 
et; 

[-Fe/2,Fe/2] 

20 En appliquant un filtre passe-bas (etape 135') a cette fonction F(f) , on obtient la fonction R(f) 
correspondant h la transformSe de founier de la fonction r(t) (etape 133') dont les echantillons 
r„ sont tels que r n = r(n,Te)=r(n/Fe) selon le theoreme de Shannon (etape 133) 
En pratique, on appliqueia prefSrentiellement un filtre numerique passe-bas, k retape 135, 
directement aux echantillons f B pour obtenir les echantilloris i n k retape 133. Ce filtre 

25 numerique sera deait en detail plus loin. On applique enfin une loi de determination d'ftats 
flous aux echantillons filtres r n pour obtenii les donnees de signature numerique 

s^Etat ,(n,k), sur k echantillons consecutifs {i* r*H, r w+ k-i}, n etant un multiple de k (etape 

134). 

Comme indiqu6 ci-avant, ces Stapes de la figure 13 peuvent neanmoins §tre simplifiees en 
30 effectuant directement le calcul des echantillons r„ a partir des echantillons en utilisant un 
filtre numerique* 

Dans ce qui suit, on adopte les notations suivantes : 

Filtre© : fcansforniee de Fourier de 1* operateur de filtiage 
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filtre(t) : fonction associee a Filtre(f) par application de tiansfoirnee inverse de Fourier 
Le theor&me de Borel donne la relation : 
R(f) = Filtre(f)xF(f) 

Cette relation se tiaduit sur les fractions r(t), filtre(t) et fl[t) par une foimule du type : 
r ( t ) = J 4 IC0 f(u) x filtre (t-u) du = J* °°f(t-u) x f lltre(u) du 

-co -oo 

Si l'on consid£re les fonctions qui sont associees aux echantillons (et qui respectent les 

conditions de Shannon), cette relation devient : 

k-+co k=*oo 

r n = r(n'Te) - 2 f(nTe - KTe) x ftltre(kTe) = S V*) x fi,tre * 
n k = -<x> k = -oo 

Le filtiage num&ique consiste done h ddfinir un jeu de coefficients filtre* que l'on va utiliser 
1 o pour calculer chaque echantillon i n par application de la ibimule ci ■ dessus 

Dans la pratique, on essaye de s'approcher au nrieux d*un gabarit predefini de filtre en iimitant 
la taille du jeu de coefficients filtre k . Le comprornis 4 trouver depend des facteurs suivants : 
- La precision du filtre realist s'ameliore quand le nombre de coefficients du filtre numeiique 
augmente, 

15 - Inveisement, la vitesse de calcul des Schantillons i„ diminue quand le nombre de coefficients 
augmente. 

Si le nombre de coefficients vaut K, chaque calcul d'echantillon r a se tiaduit pa! K operations 
de multiplication etpai (K-l) operations d'addition, 

Pour les filtres numeiiques utilise* par ralgoiithme de recheiche au sens de Invention, le 
20 ciitere principal retenu est la vitesse de calcul des echantillons r B „ 

Dans une realisation preferee, le choix poite sur une famille paiticuliere de filixes dits k 
«valeur moyenne* poui lesquels les coefficients du filtre numeiique sont identiques, de soite 
que : 

filtrek = Cte pour k entiei e [-K, K] 
25 filtrek - 0 pour les autres valeurs de k 

Liquation du filtre numeiique se simplifie sous la forme suivante : 

k * +K 

r n = CtexS Vk) 
k=-K 
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Pour ce filtre h 2K+1 coefficients, le calcul d'un echantillon r n ne se traduit plus alors que par 
2K41 operations d'addition, et par une op&ation de multiplication si le teime Cte est different 
de la valeur I.. 

On remaxque par ailleuxs que 1'Schantillon r (n+ i) peut s'obtenir simplement a paith de r„ par la 
relation i( n +o - in + Cte(f(„+K+i) - f(n k>) 

De fason paiticuliSrement avantageuse, en appliquant cette demfere relation, le calcul de 
chaque nouvel echantillon r (n+ i) ne se tiaduit plus que par deux operations d'addition 
La reponse frequentielle du filtre num&ique h valeur moyenne s'obtient k partir de la 
transformee de Fourier de Pop&ateur de sornmation c(t) suivant : 

c(t) = 1 pom t e [- T/2, T/2] 

c(t) = 0 ailleurs 

Le filtiage de f(t) par Poperateur a(t) se traduit alors par la foimule : 

r+oo fT/2 
r(t) - I f(t-u) x o(u) du = J f(t-u) du 

" -oo . T/2 
La reponse ftequentielle de Pop&ateur a(t) est £(f) avec: 

--O0 

-T/2 

On obtient finalement : 

S(f) = T sln(lttT) 

La reponse frequentielle du filtre a valeur moyenne s'obtient en divisant ensuite celle de 
Poperateur sornmation 2(f) par T. 

Filtre(f) = £moy(f) = S(f) / T = 

jrfT 

La reponse frequentielle du filtre numeiique a valeur moyenne sui K 6chantillons cons6cutifs 
s'obtient ensuite en remplacant T par (K-l)Te, soit : 

F!ltre(K,0 = Smoy(M = <K-1)Te sin(*f(K-1)Ts) 

?tf(K-1)Te 

Selon la paiite de K, deux equations de filtre numerique sont utilisees pour le calcul des 
echantillons r D . 
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Pour K impair on a: r n = (1/K)x2 f ( 



Pour K pair on a: r n = (1/K) x X *< 

k= -K/2 



k^-K/2 
k={K/2) -1 



On a represente sui la figure 14 des exemples de trace de Fittre(K,f) * Emoy(K 3 f) pour 
quelques valeurs de K, en fonction de fZFe La piemieie coupure du filtre & z€xo inteivient pour 
f = Fe/<K-l) 

On sait par ailleurs que 1* application d*un filtiagepasse-bas ideal dans la bande de Sequences 
[-Fe/2(n»l), Fe/2(n-l)] se traduit par les probabilites de tirage suivantes pour des etats flous 
calcules sur des sequences de n echantillons consecutifs : 

P1-F0-1/4 

F? - 1/2 

On peut se lapprocber d'un gabaiit de filtrage passe-bas id£al en choisissant un filtre 
numerique a valeui moyenne dont la frequence de coupure & zero intervient a f Fe/2(n-l) : 
cette condition est atteinte pour K = 2n-l 

Dans la piatique, Implication d'un filtre numeiique k valeur moyenne se traduit bien sfir par 
des probabilites de tirage des etats flous qui different de celles obtenues avec un filtre passe- 
bas ideal La determination de la valeui de K est faite de manieie empiiique en sachant que les 
probabilites obtenues avec K = 2n-l seront proches de celles du filtre id6al, et que les 
probabilites de tirage PI et P0 augmentent aussi avec la valeui de K, 

On decrit ci apres les adaptations appoitees aux lois de determination d'etats flous, notamment 
en fonction de ce qui precede. 

Les calculs de probabilites sui le tirage des etats flous piennent pour hypothese que les 
donnees de fichiers repiesentent les valeurs d'echantillons d'un signal f(t) de valeur moyenne 
nulle Cette condition se traduit encore par la relation suivante ; 




-oo 



WO 2005/101292 



PCT/FR2005/000673 



32 

Les resultats obtenus sui' ies probability de tirage des etats flous ne sont done valides que si 
cette condition est respectEe pom les echantillons f n : 
n = *oo 

n = -oo 

Dans le cas d'un fichiei d' Echantillons de taille N, cette condition devient : 
n = (N -1) 

E f„-o 

n = 0 

Or, les conditions prEcEdentes de valeur moyenne nulle ne sont pas systematiquement 
satisfaites lorsque Ton determine les valeurs des echantillons k partir des donnEes binaires d'un 
fichiei . Ces conditions ne sont par exemple pas satisfaites si Ton utilise la loi de codage 
« entier non signe» pour reprEsenter les valeurs des Echantillons associEs aux donnEes d'un 
fichiei . En effet, dans ce cas chaque octet reprEsente un entier compiis entre 0 et 255, ce qui 
conduit a une valeur moyenne d'echantillons de 127,5 pour un fichiei de contenu aleatoire, 
Poui' palier ce probleme, on introduit comme suit xra paiamEtre de valeur de rEfErence Vref 
dans la loi de determination d'Etats flous sui les sequences de k echantillons consecutifs r n {i n , 
in+b • • ■■> in+k-i} qui ont EtE obtenus par filtrage numExique h partir des Echantillons f n : 

Etat faM) - 1 si V i e {0, k-1 }, >- Vref 

Etatr(n,k) = 0 si V i € {0, k-1}, iwh < Vref 

Etatr(n 3 k) = ?Sinon 

Le choix de la valeui Vref est alors fait pom s'approcher au mieux de la valeui moyenne prise 
par les Echantillons f n du fichiei de donnEes . 

Dans le cas oil ^application de recherche est ciblee sui* la compaiaison de fichieis de meme 
nature, comme par exemple des fichiers texte, la valeur de Vref doit etre fixEe en connaissance 
de la loi de codage des donnees du fichiei et des probability de tiiage de chaque code. 
Pom la realisation du programme infoxmatique de recherche plein texte, dans une realisation 
prEfEree, on considEre que le foimat des fichiers & comparer ne serait pas connu h Pavance. On 
determine done la valeur de Vref en procedant a une analyse prEalable des fichiers a comparer , 
Pour cette realisation, la valeui de Vref est calculEe pour chaque echantillons i„ en effectuant 
un calcul de valeui' moyenne des Echantillons ft sur une sequence de taille fixe, Krefi centree 
sui f n , avec : 
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k = +Kref/2 



Vref n = (1/Kref)x2 



k = -Kref/2 



Sachant que les echantillons r n sont dej£ obtenus par un calcul de valeui moyenne sui des 
sequences de K Echantillons consecutifs f kf la taille de la sequence Kref (utilisee pour le calcul 
de Vref n ) e# choisie sup&ieure k celle de K (utilisee pour le calcul des echantillons ). 
La loi de determination des &ats flous sui les sequences de k echantillons consecutifs r n {i n , 
iirt-i, , in+k i} devient alors : 

Etat ,(n,k) = 1 si V i e {0, k-1 }, r n+i >= Vref a+j 

EtaUn,k) - 0 si V i e {0, k-1}, < Vref^ 

Etatr(n s k) = ?Sinon 
Cette loi se simplifie en posant t\ ~ (r n - Vref n ), Alors : 

Etat An,k) - 1 si V i € {0, k-1 }, i V* >= 0 

EtaUn,k) = 0 si V i e {0, k-l} f r'^ < 0 

Etat r (n 5 k) = ?Sinon 
Pom K pail et Ki ef pair, la foimule du filtre numSrique est : 



On retiendia que la rSponse frgquentielle du filtie numeiique associS au calcul des dchantillons 
r' n s'obtient stmpKement k paitir de celle de £moy(K,f) : 



Le choix de la valeui de K est fait de mantere a ce que la frequence de coupure k z6io du filtre 
soit inf&ieure>an egale a celle qu'il faudrait utiliser poui un filtie passe-bas idSal qui permette 
d'obtenh des probability de tiiage d'Stats 1 ou 0 6gales k 1/4. On rappelle que cette frequence 
de coupure de filtre passe-bas id£al s'obtient en fonction du rapport d'index k par la foimule 
Fe/(2*(k-l)) et que cette condition est atteinte sui' 2moy(K,f) poui K plus petit ou 6gal a 2k -1. 
Le choix de Kief est fait de manifere h Stre sup&ieur k K, sans eire non plus trop Sieve. 
Pour la realisation prefkentielle du programme infoimatique de recherche plein texte, on 
ajuste automatiquement les valeurs k utilisei pour K et Kref en fonction de la valeui 1 k voulue 
poui le rapport d'index , Les valeurs de K et de Kref sont choisies en tant que multiple de k, ce 
qui facilite les calculs d'adresse des donnSes, done : 




k = (K/2M k = (Kref/2) -1 



1 m - (1/Kref) 2 f in+k) 
I k=-Kref/2 



Filtre(f) = £moy(K,f) . 2moy(Kref,f) 



K = interv x k et Kref = intervref x k 
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La reponse du filtre numeiique ajuste" pour un rappoit d'index k est 

Filtre(k,f) = Emoy(interv x k,f) ■ 2moy(intervref x k,f) 
Pour la realisation du programme informatique de recherche plein texte, quatie bis de 
determination d'etats flous sont simultanement utilisees, dans une realisation particuliere. 
Les etats flous determines par la premiere loi sont codes sui les 2 bits de poids faible de 
chaque donnee de signature nruneiique. Les etats flous determines par la deuxieme loi sont 
codes sui les 2 bits de poids faible suivants de chaque donnee de signature numeiique, et ainsi 
de suite, jusqu'a occupation complete des 8 bits (soit done 1 octet) de chaque donnee de 
signature numerique. 

Les quatie iois sont caracterisees par un jeu de paiametres intervl, inter v2, inteiv3, interv4 et 
rnteivref Le mSme paxametre inter vref ' est utilise pour chaque lot Pour 1 un rappoit d' index k, 
le choix par defaut s'est porte sur le jeu suivant de filtres numenques assoctes a chaque loi de 
determination d'dtats flous : 

Filtrel(k,f) - 2moy(2k > f) - Zmoy(14k,f) 

Filtre2(k,f) = 2moy{3!c > f) - Emoy(14k,f) 

Filtre3(k,f) = £moy(5k,f) - 2rnoy(14k,f) 

Filtre4(k,f) - 2moy(7k,f) - Zmoy(14k,f) 
La figur e 15 illustre la reponse firequentielle des filtres numeiiques par de*faut ajustes pour un 
rapport d'index k = 5 Les formules des filtres numeriques par dSfaut ajustes pour un rapport 
d'index k sont : 

k = {2k/2) -1 k*7k-1 

n n =d/2k)S f w - (i/i4k) 2 

k=-2k/2 k = -7k 

k = (3k/2)-1 k = 7k-1 

r2 n -(1/3k)E f {n+k) - (1/14k) X Vk) 

k = ~3k/2 k = -7k 

k = (5k/2) -1 k = 7k-1 

r3 n = (1/5k)2 f (n+k) - f1/14k) S Vn 

k = -5k/2 k*-7k 

k-(7W2)-1 k = 7k-1 

r4 n = (1/7k)2 - (1/I4k) 2 V k) 

k*-7k/2 k = -7k 



Poui eviter les bruits de calcul occasionnes par les divisions, dans une realisation avantageuse, 
on calcule d'abord les sommes, puis on effectue ensuite les tests de signe sui termes r n en 
multipliant la premiere somme par Kief et la deuxieme somme par 1 K 
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On dSciit maintenant une optimisation complete pour ^application a un moteur de recherche 
plein texte > 

Cette optimisation commence par la determination d'un rapport d 5 index appropiie,. 
Pour 6tre ind£pendant des choix paiticuliers qui pouiraient 6tre retenus poui' la j 6alisation des 
5 filtres num&iques passe-bas (figure 13), on utilise Tequation g&i&ale suivante pour le filtre 
numerique : 

i = +I2 
r n =S fi'tre<xf (n+1) 
i= 11 

Comme indiqu6 relativement a la figure 13, chaque donnee de signature numerique est 
d£terrnin6e h paitii' d'un groupe de k echantillons cons&utifs {r„, i^h, in+a* •■■-» *n+ki}> k 
10 designant la valeui du rapport d'index et n 6tant choisi multiple de k. Cette determination pent 
§tre decomposee en deux etapes : 

- la determination d'un 6tat binaire eb n assocte k chaque Echantillons i „, avec : 

eb n » 0 si i„ < 0, et eb a * 1 sinon 

- la deteimination d'un etat flou par un OU logique sur le groupe d'etats binaixes 
15 consEcutift {eb„, eb n «, eb^, ♦ .„, eb fl+k i}: 

= (eb n ou eb n+ iOU eb^ ou , , ♦ ou eb^-i) 
On a illustre sur la figure 16A les relations entre adresses de donnees de fichier et adresses de 
dormees de signatures numeiiques. On obseive que dans le cas d'un choix de rappoit d* index 
k, chaque donnee de signature num&ique d'adresse (n/k) est dEteiminee a paitii d'un groupe 

20 de (11 + k + 12) donnees de fichia: { £uj, W*-i} On noteia aussi que dans le cas ou les 

adresses utilises pour le calcul des echantillons r n debordent de la plage des donn6es du 
fichier h indexer, les etats eb n associes sont initialises a l'6tat flou « ? ». Sur la figure 16A, les 
Echantillons f n sont tirfe des donndes du fichier. On Ieur applique ensuite le filtrage num&ique 
pour obtenh les dcbantillons filtres r n en coirespondance des fiats eb n associes, Les Etats flous 

25 SnA coirespondant aux dormees de signature numerique sont ensuite dEterminEs par la 
comparaison mettant en jeu le OU logique : 

Sn/ie - (ebn ou eb„+iou ebn+2 ou . ou ebn*k-i) 
en respectant avantageusement les memes adresses de depart des Echantillons f„. 
Pour ^application au moteur de recherche plein texte, la valeui' k du rapport d'index 

30 conditionne la valeui' de taille minimale d'extraits communs h deux fichiers qui peuvent 6tre 
detectfe en procedant par une recherche d'exfeaits communs de signatures numeiiques. Cette 
taille minimale d'extrait commun de fichier est obtenue lorsque la taille de Textrait commun 
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aux signatures numeiiques est dgale a 1. Dans ce cas, la condition de detection de Textrait 
commun de fichier impose que le groupe des donndes consecutives de Pex&ait a trouver 
recouvre le gioupe des donnees consecutives utilistes pom le calcul de chaque donnee de 
signature numerique. 

5 En prenant les notations t^ pour la taille d'extrait commun de fichier a trouver et Ugn pour la 
taille du groupe de donnees utilisees pour le calcul d'une donnee d'index, on d6montre la 
relation W > W + (k-1). 

On a represents sur la figure 16B les conditions de recouvrement des donnees assocites au 
calcul d'une donnee de signature num&ique par celles d'un exbait de fichiei. Sur la figure 

10 16B, la reference EXT designe un extrait de donnees qui satisfait la condition de recouvrement 
du groupe de donnees utilise pour d&erminei la donnee de signature numerique d'adresse 
(n/k), La r&fSrence Gl dSsigne le groupe de donnees utilis6 pour determiner la donnee de 
signature numerique d'adresse (n/k)„ La ref6rence G2 designe le gioupe de donntes utilise 
pom d6terminer les donn6es de signature numerique d'adresses respectives (n/k> 1 et (n/k), La 

15 reference ADSN designe les adresses des donntes de signature num&ique. On rappelle que 
1'entier n est un multiple du rapport d'index k 

On obseive que les conditions de recouvrement dependent de la phase de l'adresse de debut de 
1'extiait de donntes qui sera recherch6. Dans le cas le plus favorable, l'adresse de debut de 
Fextiait coincide avec l'adresse de la premise donate d'un groupe de donates utilis6 poui le 

20 calcul d'une donnte de signature num6rique* Dans ce cas, l'adresse de d6but de I'extiait est 
n-Il (avec n multiple de k) et la taille minimale de I'extiait pout recouvrement est II + 12 + k. 
Dans le cas le moins favorable, l'adresse de debut de I'extiait coincide avec l'adresse +1 de la 
premiere donnte d'un groupe de donntes utilise pour le calcul d'une donnte de signature 
numeiique, Dans ce cas, l'adresse de d6but de I'extiait est n-Il-(k-l) (avec n multiple de k) et 

25 la taille minimale de I'extiait pour recouvrement vaut I M 12 + k + (k-l). 

Dans tous les cas, la condition de recouvrement d'un groupe de donnees utilise poui le calcul 
d'une seule donnte de signature numerique est satisfaite si la taille de Text ait a trouver est 
sup&ieure ou 6gale a (II + 12 + 2k -1), Rteiproquement, si la taille d'extrait a trouver est 6gale 
& (II + 12 + 2k -1), Texttait recouvre bien un groupe de donnees utilise poui 1 le calcul d'une 

30 donnee unique de signature num&ique. 

On pent Stendre le raisonnement au cas du recouvrement d'un groupe de donnees utilise pour 
le calcul d'un extrait de donnees de signatures num&iques de taille TES. Dans le cas le plus 
favoiable, l'adresse de debut de l'extrait coincide avec l'adresse de la premiere donnte d'un 
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groupe de donnees utilise pour le calcul de TES donnees consecutives de signature numeiique 
Si l'adresse de debut de Textiait vaut n - II (avec n multiple de k), la taille rmnimale de 
r extrait pom' recouvrement vaut II + 12 + k.TES, 

Dans le cas le moins favorable oix l'adresse de dSbut de l'extrait coincide avec l'adresse +1 de 
la premiere donnee d'un groupe de donnees utilise pour le calcul de TES donnees de signature 
num&ique, l'adresse de debut de l'extrait vaut n - II - (k-1) (avec n multiple de k) et la taille 
minimale de l'extrait pour recouvrement ^ II + 12 +■ k,TES + (k-1), 

Dans tous les cas, la condition de recouvrement d'un groupe de donn&s utilise pour le calcul 
de TES donnees consecutives de signature numerique est satisfaite si la taille de l'extrait k 
trouver est superieure ou 6gale a {II + 12 +k(TES+l) 

A paitii des foimules pr6c6dentes, on applique un misonnement inverse pour determiner les 
valeui s de iappoit d' index k qui peuvent etre utilises pour rechercher un extiait commun de 
fichiei's de taille TEF. On doit satisfaire aux relations suivantes : 
TEF > II 4 12 + k(TES + 1) -1 , et 

TES > 1 (qui est simplement la taille minimum d' extrait commun de signatures num&iques) 
La valeur niinirnale pour k est kmin = 2, sinon il n'y a bien sui aucune amelioration k attendre 
sur la vitesse de recherche. 

On en deduit enrln la valeui de taille ininimale utilisable pour TEF 

TEFrmni==Il + I2 + 2(TES + 1)-1 
On notem que pour TES = 1, TEF mini -II + 12 + 3 
La valeur maximale pour k s'obtient a rebours en prenant TES = 1 , alois : 

kmax = partie enti&re de [(TEF - II - 12 + 1) / 2] 
Pour toute valeui 1 de k comprise entre kinin et kmax, on d&iuit la taille de l'extrait commun de 
signature TES qui conditionneia la detection d'un extrait commun possible aux fichiers de 
taille TEF : 

TES <: partie entifere de [(TEF - II -12 + l)/kj -1 
Les foimules peuvent Sire adapties au cas particulier des flltres numeiiques «par d£faut» 
ajustds poui un rapport d'index k, comme on Pa vu prScedemment II suffit alors de remplacer 
H pax (inteivref x k)/2 et 12 par- II -1. On obtient la relation suivante entre TEF, TES, k et 
inteivref : 

TEF £k(intervref + TES 4 1) 2 
La valeur de taille ininimale utilisable pom TEF est obtenue poui k = 2 et TES - I et Ton 
deduit TEF rnini = 2 1 inteivref + 2 
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Pour TEF fixe, on deduit la plage de valeurs licites pour le rappoit d'index k: 
kmin = 2 < k < kmax = paitie enti^re[(TEF + 2) / (intervref + 2)] 

Poui toute valeur de k comprise entre kmin et kmax, on deduit la taille de 1'extrait commun de 

signature TES qui conditionneia la detection d'un extrait commun possible aux fichieis de 
5 taille TEF: 

TES <: partie entiere de [(TEF + 2) / k] - (inteivref +■ 1) 

Ainsi, la detection d'un extrait commun de fichieis de taille TEF peut etre obtenue par 

comparaison de signatures numeiiques en utilisant diflteientes valeuis de rappoit d'index k. 

Pom une valeur ditermin^e TEF S on deduit une plage de valeurs utilisables pour k : de kmin k 
10 kmax. Four chaque valeui utilisable de k, on determine ensuite une valeur TES de taille 

inaximale d'extrait commun de signatures numeiiques qui gaiantisse la detection d'un extiait 

commun de ficbiers de taiile TEF. 

On va maintenant examiner comment choisir la valeur de k (dans la plage licite kmin, kmax) 
pour avoir la vitesse de recherche la plus rapide , 
15 Cornme indiqu6 precSdemment, poui Papplication a un moteur de recherche plein texte, la 
recherche se fait en deux passes ; 

la recherche d'extaits communs de signatures numeiiques de taille superieure ou egale a 

TES,et 

- poui 1 chaque extiait commun de signatures numeiiques ttouve, la recherche ciblee 
20 d'extraits communs de fichieis de taille TEF paimi le jeu de couples de positions de debut 

d'extraits de fichieis en relation avec le couple de positions de debut de 1'extrait commun 

de signatures numeiiques, 
Pour revaluation du nombre d' operations de comparaison k effectuer pour 1 les deux passes de 
recherche, on retient dans une premifere approche les hypotheses simplificatiices suivantes : 
25 - les probabilit& de tirage des donnees de fichieis sont ind£pendantes ; 

- par ailleuis, les probability de tiiage des donnees de signatures numeiiques sont 
independantes. 

La probability de tirage d'un extiait commun de fichiers de taille 1 est notee PF, La probability 
de tirage d'un extiait commun de fichiers de taille 2 est notee PF2 Enfin, la probability de 
30 tiiage d'un extiait commun de fichieis de taille TEF est PFTEF, 

Ensuite, la probability de tirage d'un extrait commun de signatures numeiiques de taille 1 est 
notee PS* La probability de tiiage d'un extiait commun de signatures numeiiques de taille 2 est 
PS2, La probability de tiiage d'un extrait de taille TES est PSTES . 
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On adopte par ailleurs les notations suivantes : 

TF1: Taflie du premier fichier k comparer 
TF2: Taille du second fichier' k comparer avec le premier fichier 
TS1 : Taille de la signature nume'rique associee au premier fichier 
5 TS2: Taille de la signature num&ique associee au second fichier 

On 6value d'abord le nombre Total 1 de comparisons k effectuer pom la premiere 6tape de 
recherche « grossiere » d'extraits commnns de signatures numenques de taille sup6iieure ou 
6gale 4 TES. Le nombre de couples possibles de positions de debut d'extrait commun de 
signatures numeriques est egal k TSl x TS2 , Pour tine valeui de rapport d'index k, les tailles 
10 TSl et TS2 serdeduisent des tailles TF1 et TF2 par les relations : 
TS1-TF1 /ket TS2 = TF2/k 
Pour chaque couple possible de positions de d6but d'extrait commun de signatures 
numeriques, on compare des premieres donnees d'extrait. En cas de correlation, la 
comparison se poursuit avec les deuxibmes donnees d'extrait, et ainsi de suite jusqu'a 
1 5 atteindre la taille d'extrait demanded TES„ 

Pour chaque test, le nombre moyen d'operations de comparison s'obtient k partir de la 
probability de tkage PS, avec : 

Pour le test des premieres donnees d'extrait : 1 operation, 
Pour le test des deuxiemes donnees d'extrait : PS op6rations, 
20 Pom le test des TESiemes donn6es d'extrait: PS IES I operations. 

Au total, on obtient done i + PS + .... + PS" 23 1 , soit (1 ■ PS 153 ) / (1 - PS) operations, La 
valeui de Totall s'en deduit par multiplication par (TSl x TS2), soit : 
Totall -(TF1 x TF2) x (1 - PS**) / (fc 2 x (1 - PS)) 

On evalue maintenant le nombre Total2 de compaiaisons k effectuer pour la seconde 6tape de 
25 recherche « ciblee » d'extiaits communs de fichieis de taille TEF panni le jeu de couples de 
positions de d6but d'extiaits de fichiers en relation avec les extraits communs de signatures 
numeriques tr ouv& a la pr6c6dente 6tape de recherche grossi&e. Pour un extrait commun de 
signatures num&iques rep&e par' un couple d'adresses de debut (nl, n2), les adresses de debut 
a tester sur le premier fichier sont comprises entre (k«nl 412+k.TES - TEF) et (knl - II), soit 
30 au total, Na = (TEF - II 12 - k TES + 1) adresses possibles (figures 1 6A et 16B). 

La valeui' de TEF peut etre par ailleuis encadrde par la relation suivante quand on utilise la 

plus grande valeui possible poui' k : 

Il + I2 + kCTBS+ 1)- 1 ^ TEF < II + 12 + k(TES + 2) - I 
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On en deduit que k <Na < 2k 

Le meme raisonnement s*applique aux adresses de d£but a tester sm le deuxieme fichier en 
substituant n2 & nl . 

II y a done au total Na 2 couples de positions de debut d'extiaits communs de fichiers k evaluer 
5 Le nombre moyen de comparaisons a effectuei pour rechercher un extr ait commun de fichiers 
de taille TEF s'obtient k paitir de la probability de tiiage PS mais en appliquant un 
laisoimement analogue k celui de l*6tape de recherche grossi&re : 

Na 2 x(l-PF 7EF )/(1 -PF) 
Le nombre moyen d'extiaits communs de signatures numeriques trouvfe a la premiere etape 
10 s'obtient a partir de la probability de tirage PS et des tallies des signatures TS 1 et TS2 : 
TSlxTS2xPS TES 

On remplace TS1 par TFl/k etTS2 par TF2/k et on obtient finalement Total2 par produit des 
dernieres expressions: 

Total2 = (ITl x TF2) x (Na 2 /k*) x PS TBS x (1 - PF IEF ) / (1 - PF) 
15 On a 6€}h montrS que 1 < Na/k < 2, On en deduit les relations suivantes: 

Total2 > {TF1 x TF2) x PS TBS x (1 - PF™) / (1 - PF) et 

Total2 < 4x(TFl x TF2) x PS IES x (1 - PF IBF ) / (1 - PF) 
On indique que le signe « x » signifie ici « multipliepar », 

Enfin, Evaluation du nornbre Total3 d'op&ations de comparaison k effectuei pour les deux 
20 passes de recherche s'obtient par simple addition de Totall et de Total2, soit : 
Total3 - (TF1 x TF2) x (1 - PS IES ) / (k 2 x (1 - PS)) 

+ (TF1 x TF2) x (Na/k) 2 x PS IES x (1 - PF IEF ) / (1 « PF) 
Pour' les grandes valeurs de TEF et TES, la relation peut Stre approch6e pat : 

Total3 - (TF1 x TF2) x [ (1 / (k 2 x (1 - PS))) + ((Na*) 2 x PS IES / (1 - PF)) J 
25 Le nombre total de comparaisons k effectuer avec Talgorithme de recherche de reference est 
proche de TF1 xTF2, Le iapport entre ce dernier nombre et Total3 donne une estimation du 
gain de vitesse de recherche obtenu par utilisation de Palgorithme au sens de l'invention : 

Gain - 1/ [ (1 / (k 2 x (1 - PS))) + ((Na*) 2 x PS IES / (1 PF)) ] 
Quand le second teime de la somme est inferieur au terme en 1/k 2 , on notei'a que Ton obtient 
30 un gain supirieur a 1^/2(1 - PS) 

On indique incidemment que, toutefois, pour obtenir le gain eflfectif de vitesse de recherche, il 
faut aussi diduire les temps propres au calcul des signatures numeriques 
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Comrae on le vena en T&terence a la figure 17, l'ttude des vaiiations de la fonction Total3 en 
fonction du rappoit d'index k montre que : 

le premier terme de la somme en l/k 2 decroit tres rapidement quand k augmente, 
- le deuxieme terme de la somme en ps IES(k) 4 croit quand k augmente, car la valeui de 
5 TES(k) decroit quand k augmente. 

On rappelle que dans le cas g&i&al, TES - partie entfere de [(TEF - II - 12 4- 1) / k] 1 
Dans le cas des fxltres numeiiques h valeui moyenne optirais6s, 

TES » paitie entifere de [(TEF + 2) / k] - (intervief "+ 1) 
II apparait que la valeui' de k a utilise! pour obtenir la valeui minimum de cette fonction ne 

10 peut pas etre d&erminee par une relation math&natique simple. Toutefois, comme le jeu des 
valeurs possibles de k est r£duit, on determine la valeui optimale de k de maniere empiiique, 
Pout chaque valeui possible de k (entre kmin et kmax), on calcule la valeui de TotaB en 
fonction de k et Ton letient la valeui de k qui produit la plus petite valeui de Total3. 
Toutefois, r evaluation du nombre d' operations de comparison k effectuer est plus precise si 

15 Ton conige aussi le module utilise pour le calcul des probabilites de tiiage d'extraits coimnuns 
de signatures numeiiques, En effet, les probability de tiiage des donn£es de signatures 
numeiiques ne sont pas inddpendantes entre elles, cai il y a un recouvrement impoitant entre la 
plage des donnees de fichier qui sont utilisSes pour le calcul d'une donnee de signature 
numeiique d'adresse (n/k) et celle des donnees de fichier qui sont utilises pour le calcul de la 

20 donnfe suivante de signature numeiique d* adresse (n/k) H , 

Dans le cas general d'un filtre numerique passe-bas a (II +■ 12 + 1) coefficients, les 6tats flous 
piis par les donnees de signature numeiique d*adresses (n/k) et ((n/k) + j) seront independants 
si il n'y a pas de recouvrement entre les plages de donnees de fichier qui sont utilisees pour 1 
leur domination Cette condition est satisfaite si (n + 12 4 k - 1) < (n + k j - II k + 1), 

25 soitsi: j>(Il+I2 + 2k-2)/k 

Dans le cas paiticulier des filtres num6riques par defaut ajustes pour un rappoit d'index k, on 
substitue simplement (k x intervref -1) a (II + 12) dans liquation prficedente La condition 
d'indSpendance est alors satisfaite si j > (intervref + 2) - 3/k, autrement dit, si l'6caxt 
d'adresses entre les donnees de signatures num&iques vaut au moins (inteivref +2). 

30 Pour tenir compte de la dependance des 6tats flous pris pai des donn6es consecutives de 
signature num&iqiie, le module de probability est modify comme indiqu6 ci-apr6s. 
La probability de tiiage d'un extrait commun de signatures num&iques de taille 1, appendant 
est notee PSI . La probability de tiiage d'un extrait commun de signatures numeiiques de taille 
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2 est egale k la probability de tiiage PSI d'un extiait de taille 1, multipliee par la probability de 
tirage conditioimelle PSD (D pour dependant) d'un autre extiait de taille 1 consScutif a un 
extrait prealablement trouv£ de taille 1, Cette probability de tirage devient alois PSI x PSD. La 
probability de tiiage d'un extiait commun de signatures numeiiques de taille 3 devient PSI x 
PSD 2 Finalement, la probability de tiiage d'un extiait de taille TES devient PSI x PSD a ^ J) . 
On demontre la relation suivante entre PSI et PSD: psD (IntCTVref+2) < PSI 
A paitir de ce nouveau modele de probabilitas, on lvalue les foimules de calcul des nombres 
Totall etTotal2 : 

Totall - [(TF1 x TF2) / k 2 ] x [1 + (PSIx(l - PSD (1ES * ! >) / (1 - PSD))] 

Total2 = (TF1 x TF2) x (Na/k) 2 x PSI x PSD' 1 * 5 ' 1 * x (1 - PF TEF ) / (1 - PF) 
Pom des valeuis yievSes de TEF et TES, les foimules peuvent 8tre approchyes comme suit : 

Totall - [(TP1 x TF2) / k 2 ] x [1 + (PSI / (1 - PSD))] 

Total2 - (TF1 x TF2) x (Na/k) 2 x PSI x PSD (ra& l) / (1 - PF) 

EtTotal3 - (TFlxTF2)x[(l + (PSI/(1 -PSD))/!^ 
+ ((Na/k) 2 x PSI x PSD (IES-I) ) / (1 - PF) ] 
Dans une ryalisation pref&i£e, les valeurs de PSI et PSD sont dyteiminees k l'avance par 
analyse statistique des resultats de coinpaiaisons entre signatures numeiiques obtenues avec 
des fichieis de grande taille, A cet effet, un programme specifique d' analyse statistique 
etalonne les valeurs a utiliser poui' PSI et PSD. 

Pom le jeu de 4 filtres numyriques par defaut (figuie 15) ajustes pom un rapport d' index k, les 
valeurs relevees pom PSI et PSD varient peu en fonction de k> La iyalisation utilise les valems 
airondies suivantes: PSI - 0,4 et PSD = 0,6 

On a representy sur la figure 17 les vaiiations de Totall, Total2 et Total3 en fonction de k avec 
le jeu de filtres numyriques pai 1 dyfaut et pom une valeur de taille minimale d'extiaits 
communs de fichiers k trouvei ygale h 1000 et des tailles de fichiers k comparer de 
lOOkilooctets, 

On deciit maintenant Pamyiioiation de la s61ectivite de la recherche d'extraits communs de 

signatures numyriques, toujours pom un moteur de recherche plein texte,, 

Dans le cas simple oil les donnees de signatures numyriques ne poiteiaient chacune qu'un seul 

ytat de logique flou, on peut dyduire des probabilites de tiiage des ytats « 0 », « 1 » et « ? » la 

probability PSI de dytection d'un extiait common de signatures numeiiques de taille 1. 

On note P0 la probability de tirage de I'ytat 0, PI celle de I'etat 1 et P? celle de Pytat ?, 
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Pour un couple donne de positions de debut d'extraits de signatures numeriques & ^valuer, les 
conditions de detection d'un extrait commun de signatures numeriques de taille 1 sont les 
suivantes; 

- si I'etat de la donnee de signature num&ique associee an premier fichier vaut 0, il faut que 
I'etat de la donn£e de signature numerique associee au second fichier soit 6gal iOoua?, 

- si I'etat de la donnee de signature numSrique associee au premier' fichier' vaut 1, il faut que 
I'etat de la donn£e de signature numerique associee au second fichier soit egal Uoua?, 

- si rata* de la donnee de signature numeiique associ£e au premier fichier vaut ?, !'etat de la 
donnee de signature numerique associee au second fichier peut prendre la valeur 
quelconque 0, 1 ou ? 

Pom un couple donne de positions de debut d'extraits de signatures num&iques k 6valuer, les 
probability de detection d'un extrait commun de signatures numeriques de taille 1 se 
d6terminent comme suit pour chaque situation precedemment presentee : 

- l^tat de la donnee de signature numerique associee au premier fichier vaut 0 et I'etat de la 
donnee de signature numerique associee au second fichiei vaut 0 ou ? (Probability P0 x 
(P04P?) 

- I'etat de la donnee de signature num6iique associee au premier fichier vaut 1 et l'&at de la 
donnee de signature numeiique associee au second fichiei vaut 1 ou ? (Probability = PI x 
(PI 4 P?)) 

- I'etat de la donnee de signature numeiique associee au premier fichier vaut ? et I'etat de la 
donnee de signature num&ique associee au second fichier prend une valeur quelconque 
(Probabilite * P? x 1 = P?) 

La probabilite de detection PSI s'obtient par addition des probability de chaque situation : 

PSI = P0 x (P0 + P?) + PI x (P 1 + P?) 4 P? 
La foimule de determination de PSI peut encore se simplifier en remplapant (P0 4 P?) par (1 - 
PI), (PI 4 P?) pax (1 - P0), et (P0 + P1 4 p?) pari, et : 

PSI = P0x(l-Pl)4Plx(l-P0)4P? -I. 2xP0xPl 
La valeur maximale de PSI vaut 1 . Elle est obtenue pour P0 = 0 ou PI = a Cette situation est a 
proscrire, car, dans ce cas s la recherche d'extraits communs de signatures numeriques n'a 
aucune selectivity 

La valeui minimale de PSI vaut 1/2, Elle est obtenue pour P? — 0 et P0 = PI - 1/2. Cette 
situation est id<§ale et peut etre approchee si Ton utilise un filtre numerique ajusti par defaut 
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avec des valeurs elevdes pour les paramfetres intervref et inteiv, comme on Pa vu 
precedemmenl 

Pour les filtres numeriques k valeui moyenne, la valeur de PSI est obtenue de maniere 
statistique par l'analyse de la compaiaison entre elles de signatures numeriques de grande 
taille., On a montr6 que 1'application d'un filtre ideal de coupure Fe/2(k-l) se traduit par des 
probability PO = P1 - 1/4 et P? = 1/2, 11 en resulte que PSI= 7/8 

On utilise done des filtres numeriques plus s6Iectifs de soite que PSI < 7/8, dans une 
realisation prefSrentielle, 

Dans le cas g&ieial oil les donnees de signatures numeriques portent cbacune 4 etats de 
logique floue (etat supplementary « X » (interdit)), on 6value 4 partir des r esultats precedents 
la probability PSI de detection d'un exkait commun de signatures numeriques de taille I. On 
note PSI1, la probability de detection d'un extiait commun de signatures numeriques de taille 1 
en ne s'appuyant que stir une comparaison des etats pris par la premiere loi de determination 
d'6tats flous., On note PS2, PS3 et PS4, les pobabilites de detection analogues associees aux 
Iois suivantes de determination d*etats flous (loi 1, loi 2, loi 3 et loi 4), Si les lois sont 
independantes entre elles, PSI = PSIlxPSI2xPSI3xPSI4. Dans la pratique, il y a une 
dependance entre les lois et la valeur de PSI obtenue par analyse statistique est sup&ieure au 
produit precedent 

Ainsi, la determination de chaque etat flou d'une signature numerique est effectufe par un 
calcul pr Salable d'un jeu de k etats binaires consecutifs, Dans le cas d'une recherche d'extraits 
communs de fichiers, on remarquera que la detection d'un extrait commun possible entre les 
fichiers sera toujours garantie si : 

- chaque dormee de signature numerique d'adresse (nl/k) associee au premier fichier est 
deteimkee par compaiaison entre eux de k etats binaires consecutifs d'adresses nl, nl+1, 
,,,,nl+k-l,et 

chaque donnee de signature numerique d'adresse (n2/k) associee au second fichier est 
determinee par simple recopie de l'etat binaire calcuie pour d*adresse n2. 
On indique en effet que, dans une realisation preferfe, on compare entre elles, en fait, une 
signature numerique portant des etats flous (0, 1 ou ?) (premier fichier) h une signature 
numerique ne portant que des etats binaires (0 ou I) (second fichier). On montre ci-apres que 
Ton ameliore ainsi la selectivity de la recherche, car on diminue simplement les probabilites de 
detection d'extraits communs aux signatur es numeriques. 
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Pour un couple donne de positions de debut d'exttaits de signatures numeriques k dvaluer, les 
conditions de detection d'un extrait commun de signatures numeriques de taille 1 sont les 
suivantes : 

- si I'etat de la donnee de signature numerique associee au premier fichier vaut 0, il faut que 
T6tat de la donnee de signature numerique associee au second fichier soit egal a 0, 

- si i'etat de la donnee de signature numerique assocife au premier fichier vaut 1, il faut que 
T6tat de la donnee de signature numerique associee au second fichier soit 6gal k 1, 

- si I'etat de la donnee de signature numerique associee au premier fichier vaut ?, I'etat de la 
donnee de signature numerique associee au second fichier prend une valeui quelconque 0 
ou 1. 

On prend pour notation P0' et PI' les probability de tirage des tots binaires poites par les 
donn&s de signature numerique associees au deuxidme fichier, On a les relations suivantes: 

po* + pr = i 

P0 :<P0' £ P0+P? 

pi spf ^pi +p? 

Pour un couple donnS de positions de debut d'extraits de signatures numeriques a evaluei, les 
probabilites de detection d'un extrait commun de signatures numeriques de taille 1 se 
deteiminent alors comme suit pour chaque situation prec£demment presentee: 

- I'etat de la donnee de signature numerique associee au premier fichier vaut 0 et Petat de la 
donnee de signature numerique associee au second fichier vaut 0 (Probabilite *= PO x P0') s 

- I'etat de la donnee de signature numerique associee au premier fichier vaut 1 et I'etat de la 
donnee de signature numerique associee au second fichier vaut 1 (Probabilite » PI x PT), 
I'etat de la donnee de signature numerique associee au premier fichier vaut ? et I'etat de la 
donnee de signature numerique associee au second fichier prend n'irnporte quelle valeur 
(Probabilite = P? x 1 - P?) , 

La probabilite de detection P3F s'obtient par addition des probabilites de chaque situation : 
PSr = POxP0' + PlxPi' + P? 

£ P0x(PO + P?) + Plx(Pl + P?) + P? 
£ PSI 

La relation PSI ' < PSI implique done une amelioration de la seiectivite de la recherche en 
procedant a la comparison entre une signature portant des etats flous et une signature ne 
portant que des etats binaires. 
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On remarquera que pour un extrait commun de signatures numeiiques reper£ pai un couple 
d'adresses de debut (nl, n2), Ies adresses de debut & tester sur les fichiers doivent tenir compte 
de 1'utilisation d'une signature numexique binaire pour la recherche, Dans le cas ou la 
signature num&ique floue est calculee a partii du premier fichiei, les adiesses de debut h tester 
5 sont comprises entre (kxnl 4 12 4- kxTES - TEF) et (kxnl - II), soit au total: 

Naf = (TEF - II - 12 - kxTES + 1) adresses possibles . 
Dans le cas oil la signature numeiique binaire est calculee k partii du deuxieme fichiei, les 
adresses de d£but a testei sont compiises entre : 
(kxn2 4 12 4 kx(TES - 1) ■ (TEF - 1)) et (kxn2 - II), 
10 soit au total: 

Nab - (TEF - II - 12 - kx(TES - I)) adiesses possibles,, 
Pour un filtre numenque par defaut avec parametre inteivref ; on obtient : 
Naf = TEF - kxinteivref- kxTES 4- 2 
Nab - TEF - kxintervref - kx(TES - 1)+ 1 

15 

On deciit ci-apres un etalonnage des lois de probability associees aux filtres numeiiques. On a 
relevS sur le tableau ci-apres les probability PSI et PSD de filtres numeiiques a valeui 
moyenne obtenus par la comparaison de deux fichiers texte de grande taille (300 kilooctets)., 

20 



Variations de PSI et PSD en fonction de interv pour k=30 et intervref=14 



interv 


1 


2 


3 


4 


■5 


6 


7 


CumuI2357 


Prodult2357 


PSI 




0J73486 


0,736862 


0,721675 


0,71152 


0,707414 


0,709985 


0,430022 


0,28792163 


PSD 




0J91133 


0,785281 


0,788749 


0,78712 


0,782896 


0,784331 


0,561866 


0,38354132 


Variations de PSI et PSD en i 


onction de Interv pour k"23 et intefvref=30 


Interv 


1 


2 


3 


4 


5 


6 


7 


Ckimd2357 


Produit2357 


PSI 




0,750849 


0,711247 


0,68624 


0,67309 


0,660956 


0,652175 


0,394079 


0,23442846 


PSD 




0,77943 


0,781081 


0,784095 


0,79249 


0,792396 


0,796662 


0,593634 


0.38436208 


Variations de PSI et PSD en fonction de Interv pour k«30 et IntervreMO 


Interv 


1 


2 


3 


4 


5 


6 


7 j 


Cumul2357 


Produit2357 


! PSI 




0,759058 


0,714971 


0,690597 


0,67417 | 


0,660454 


0,653617 


0,400642 


0,23914252 


PSD 




0,787054 


0,784398 


0,788614 


0,79325 


0,794868 


0,799158 


0,604817 


0,39136461 


Variations de PSI et PSD en fonction de k pour cumul2357 et Intervref»14 


k 


2 


5 


10 


20 


50 


100 


200 


372 


5880 


PSI 




0,325587 


0,382557 


0,412087 


0,44424 


0,443922 


0,426286 


0,42322 


0,413466 


PSD 




0,473232 


0,528938 


0,546894 


0,57964 


0.590101 


0,581612 


0,683971 


0,627414 
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On constate que : 

- PSI est toujours inf&ieur a PSD, 

pour k fixe, PSI d&jroit ISgerement quand inteiv augmente et PSD reste pratiquement 
constant, 

5 - pom k fixe, PSI decrolt 16g£rement quand intervref augments. 

Les probability relevSes pom le cumul de 4 filtres (inteiv = 2, 3, 5 et 7) sont superieures au 
produit des probabilites relev£es pom individuellement pom chaque filtre, On comprendra 
done quMl y a d6pendance entre elles des probability associees a chaque lot. 
Pom s'approcher au mieux d'une situation d*ind6pendance des probability, on peut envisage: 
10 de proceder comme suit pom adapter la realisation des fonctions de calcul des signatures 
numeriques ; 

- pom la loi 1, on determine des valeurs piises par les 6chantillons f n par utilisation d'une loi 
de codage d'entiers sur les 8 bits de chaque donnee, 

- pom la loi 2, on determine ces valeurs mais apres rotation des 8 bits par decalage de 2 bits, 
15 pom la loi 3, on deteimine ces valeurs mais aprfes rotation des 8 bits par d£calage de 4 bits, 

- pom la loi 4, on determine ces valeurs mais apr&s rotation des 8 bits par decalage de 6 bits. 

- on utilise pom chaque loi mi meme couple de parametres pour le filtre num&ique k valeur 
moyenne, par exemple interv = 4et intervref = 10. 

Pom les valems 61ev^es de TEF (et TES), le module mathematique d'estimation des nombres 
20 d'op&ations de compaiaison k effectuei pom la recherche donne de bons resultats sm la 
determination automatique de valeur optimale de rapport d'index a utilises 
Pom les valems faibles de TEF (et TES), le raodele mathematique d'estimation ne donne pas 
de bons r&ultats, car les tiaitements de recherche ne sont plus majoiitairement alloues a des 
operations de compaiaison. 
25 Pom chaque extiait commun de signatures numeriques trouv6, un programme d^clenche 
Pappel d'une fonction de recherche ciblee d'extrait commun de fichiei sur une plage restreinte 
de couples d'adresses de debut sm les fichiers. A chaque appel, la fonction precede a un 
certain nombre de tests de validity des parametres d'appel et d'initialisation de variables 
locales, A chaque appel, cette fonction effectue une operation de lecture sm chaque fichiei des 
30 donn^es a comparer dont la vitesse depend des performances du disque dm et du bus de 
Pordinateur, Pom tenir compte de Pimpact de ces temps de tiaitement supplementary on 
utilise un modele mathematique encore conig6 qui ajoute, a P6tape de recherche ciblee 
d'extraits communs de fichiei', des nombres d*op£rations de compaiaison reprfeentatifs des 
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temps d'appel de la fonction de recherche ciblee et des temps de lecture des donnees a 
comparer. Typiquement, le nombre ajoute a Total2 est de la forme : 
[((TF1 x TF2) / k 2 ) x PSI x PSD< IES 1} ] x [A + Bxfc] , 

5 A est une constante representative des temps d'appel de ia fonction de recherche 

ciblee, et 

B est constante representative des temps de lecture des donnees sur disque dui . 
Les valeurs des paiametres A et B dependent des caracteristiques de Fordinateur utilise poni' 
1'execution du programme et sont determines de maniere empirique. 
10 On deer it ci-apres des resultats devaluation des peifoimances avec comme ordinateur utilise 
pour revaluation un processeur Pentium in k 1GHz, 128 Mo RAM, disque dui 20 Go (sous le 
systeme d'exploitation Windows 98®)., 

Les peifoimances ont 6t& relev6es avec I 1 execution d'un programme infoimatique de recherche 
plein texte deve!opp6 sp£cifiquement en langage C++,, Le programme propose au choix 

15 d'utiliser un algoiithme « classique » ou un algorithme au sens de Pinvention pour effectuei 
une recherche d'extiaits communs k deux fichiers. Les temps d'ex^cution de Palgoiitbme au 
sens de Pinvention int£grent 6galement ceux de calcul des signatures numeriques . 
Afin d'6vitei dc fausser les mesures de performance, une attention particuliere doit etre poitee 
sur le choix des fichiers utilises pour effectuer les recherches En effet, il s'est aver6 au cours 

20 de tests que les fichiers de donnees associds a des logiciels couiants tels que Word®, Excel®, 
PowerPoint®, ou autres ont des formats de stockage qui conduisent 4 Fexistence de 
nombreuses plages de donndes consScutives initialisSes k la mSme valeui 0 (0x00) „ Comme la 
taille de ces plages est de 1'ordre de plusieurs centaines de donnSes, le modele de probabilit6 
utilisG pour la realisation du programme de recherche prototype est faussd, Des adaptations de 

25 ce modele doivent etre etudiee au cas par cas, comme par exemple la non piise en compte dans 
la fonction de recherche ciblee du couple valeurs de donnees (0,0) comme position de debut 
d'extrait comnmn. 

Le choix de type de fichier texte s'est poit£ plut6t sur des documents texte de grande taille au 
format HTML. La vitesse de recherche est expiimte en million d'op&ations de compaiaison 
30 par secondes (M6ga ops/sec), Le premier fichier est de taille : 213275 octets et le second 
fichier de taille : 145041 octets. Le tableau ci-aprfes montre les resultats obtenus 
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Taille minimale des extraits 
a trouver 


100 


150 


200 


250 


Algorithms class I que 


Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03.99s 


11m03 99s 


11m03.99s 


11m03,99s 


Algorithm© de HnventJon 


Vitesse moyenne de recherche 


116,50 


205,18 


299,05 


391,07 


Temps de recherche 


04m25,180s 


02m30,500s 


01m43,200s 


01 ml 8,870s 


Facteur de gain 


2,51 


4,41 


6,43 


8,41 




Tattle minimale des extraits 
a trouver 


500 


750 


1000 


1500 


Algorithme classique 


Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03 99s 


11m03,99s 


11m03 99s 


11m03,99s 


Algorithme de ('invention 


Vitesse moyenne de recherche 


1305,38 


3051,29 


4931,66 


9711,95 


Temps de recherche 


0m23,560s 


0m1 0,050s 


0m06,200s 


0m03,130s 


Facteur de gain 


28,07 


65,62 


106,06 . 


208.86 




Taifle minimale des extraits 
a trouver 


2000 


2500 


5000 


7500 


Algorithme classique 


Vitesse moyenne de recherche 


46,5 1 


46,5 


46,5 


46,5 


Temps de recherche 


11m03 99s 


11m03,99s 


11m03.,99s 


11m03 99s 


Algorithme de HnventJon 


Vitesse moyenne de recherche 


15740,09 


21929,98 


58334,07 


101080,35 


Temps de recherche 


0m01 ,920s 


0m01 ,370s 


OmOO.SOOs 


0m00,280s 


Facteur de gain 


338,50 


471,61 


1254,50 


2173,77 



On dteit maintenant d'autres applications de recherche d'extiaits communs probables* Dans 
certains domaines duplication, les entires de detection d'extraits communs do fichiers 
difif&rent de Tidentite paifaite des extraits a trouver: C'est notamment le cas de fichiers de 
donnees repr&entatifs de la numerisation d'un signal, tels que par exemple des fichiers audio 
(avec une extension wav par exemple) , 
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On sait que la valeur des echantillons obtenus dependra de la phase de Phorloge 
d'echantillonnage, On sait par ailleurs que le dispositif de numerisation introduit d'autres 
eireurs sur les valeurs des echantillons (bruit, gigue d'horloge, dynamique, oil autre) . 
Pour ces applications, le principe de Talgorithme de recherche au sens de Pinvention peut e"tre 
5 adapte poui' se bomer a la seule etape de recherche grossiere entre fichiers. On peut done 
resumer les etapes prevues comme suit ; 

caicul d'une signature numerique par fichier a comparer, 
- et comparaison des signatures numenques k la recherche d'extraits communs de signatures 

numeriques. 

10 On va montrer dans ce qui suit comment on peut se definir un critere de detection d'extrait 
commun k Paide de probability . 

On a montre precedemment, dans le cadre de Poptirnisation de la valeur du rapport 
d'index, que le nombre d'operations de comparaison pour effectuer la recherche entre 
signatures numeriques est estim6 k : 
15 Totall - [(TF1 x TF2) / k 2 ] x [1 + (PSIx(i - PSD <IES4) ) / (1 - PSD))] 

On a 6galement montre" que la probability de tirage d*un extxait commun de signatures 
numenques vaut PSlxPSD^ 1 ' „ 

Le nombre probable d'extraits communs de taille minimale TEF qui sera trouv6 pax la 
comparaison entre eux de deux fichiers de tallies respectives TF1 et TF2 devient done: 

20 N = [ (TFlxTF2) / k 2 ] x PSIxPSD (TES * !) , avec 

TES - partie entiere de [(TEF - II r 12 + 1) / k] -1 
L'optimisation de la valeur de k depend du compromis entre la vitesse de recherche 
(inveisement propoitionnelle k Totall) qui croit quand k augmente (on a done interet a utiliser 
des valeurs elevees pour k) et le nombre N qui croit quand k augmente (on doit done baisser la 

25 valeur de k si Ton veut limiter le nombre d'extraits communs probables d&ectes) 

L'optimisation de la valeur de k est faite en se fixant k Pavance une valeur 1 cible Nc pour N et 
une valeur de taille minimale d'extrait k trouver TEF . A partir de ces parametres, on evalue la 
valeur de N pour toutes les valeurs autorisees de k et on retient la valeur de k qui peimet 
d*approcher au mieux la valeur Nc. 

30 Cette methode de recherche introduit une imprecision sur les positions de debut des extraits 
communs probables trouves. Dans ie cas d'une recherche d'extraits communs entre une 
signature floue et une signature binaire (conespondant k un mode de realisation preTerd), 
Pimprecision sur la position de debut de Pextrait commun probable de fichiers est de Pordre 
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de +k ou -k sur le fichiei associe a la signature floue, et de 1'ordre de +k ou -2k sm le fichiei 
associ6 a la signature binaire, 

La probabilite effective de detection d'un extiait commun de signatures numeiiques peut etre 
approchee pat une analyse des variations prises par les &ats de l'extrait sui la signatuie floue 
5 Avantageusement, la realisation pref&ee evalue une probability plafond en detectant le nombre 
transitions inteivenant entre donnies a l'&at 0 et a Tetat 1, ce qui peimet de filtrei du rSsultat 
de recherche les extraits communs dont la probability mesurSe est supeiieure a un seuil 
predefmi, et ainsi d'eviter de mettre en defaut le modfcle de probabilite statistique 
(PSIxPSD* 1 *^ 1 *) utilis6 pour optimiser les parametre de recherche . 

10 

Dans le cas des fichiers audio, la recherche d'extraits audio communs a deux fichiers 
d'enregistrement se resume done comme suit. On commence par un calcul pre"alable de 
signatures numeiiques associees a chaque fichiei A Tissue de cette premiere 6tape, on peut 
assimiler un fichiei de signature numeiique comme 6tant une succession d'etats logiques qui 

15 caracteiisent des plages hoi aires consicutives de duree fixe du signal audio.. Typiquement, si 
Ton choisit une duree de plage hoiaire tfune seconde pom chaque donnte de signatuie 
numeiique, le traitement dMn fichiei audio d'une heme se tiaduit pax la creation d*un fichier de 
signatures numeiiques de 3600 donnees (une par seconde) , La premiere donnees de signatuie 
caract6iise la premiere seconde d'enregistrement, la deuxieme donnte la deuxi&me seconde, et 

20 ainsi de suite . 

La recherche d'extraits audio communs s'effectue ensuite en compaiant entre elles les donnees 
de signatures num&iques qui ont 6t6 calcultes 4 paitir de chaque enregistrement audio . Tout 
extiait commun est caracteiisd par uu couple de groupes de N donates consteutives de 
25 signatures num&iques (le premier groupe de donnees de signatures &ant associe au premier 
fichiei audio et le deuxifeme groupe £tant associ6 au deuxi&me fichiei audio) et pour lesquels il 
y a une compatibility entre les N Stats de logique flou cons&mtifs du premier groupe avec les 
N etats de logique flou consteutifs de deuxifeme groupe. 

30 L'adiesse de la premiere donnfe de signature mim&ique du premiei groupe Gl peimet de 
reperer la position horaire de d6but d'extrait commun dans le premiei fichier audio* L'adresse 
de la premifere donnte de signature numeiique du deuxi&me groupe G2 peimet de reperer la 
position hoiaire de debut d'extrait commun dans le second fichiei' audio.. Le nombre N (de 
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donnees consecutives trouvees en relation) peimet de d6duire la duree de Textrait trouve par 
simple multiplication avec la dur£e des plages horaires associees a chaque donn6e de signature 
numerique. 

Par example, dans l'hypothese oil Ton aurait calcule des signatures numenques sui un premier 
fichier audiol d'une heure et sur un second fichier audio2 d'une heure en se fixant une dur6e de 
plage horaire de 1 seconde par donnee de signature numerique, dans le cas ou le resultat de la 
recherche donneiait un extrait commun de signatures numenques de 20 donnees consecutives 
repeie" par Fadresse 100 sur la signature 1 et par Tadresse 620 sur la signature 2, ce r&ultat de 
recherche se traduirait par un extrait commun audio dhine duree de 20 secondes rep6re" par un 
hoiaire de d6but de Iminute 40 secondes sui- le fichier audiol et pai un horaire de d6but de 10 
minutes 20 secondes sui' le fichier audio2. ( 

Contrairement a la recherche d'extraits h l'identique dans des fichiers texte, il n'y a pas d'autres 
etape dans le traitement qui peimette de lever le doute sin 1'identification des extiaits qui sont 
releves k l'&ape de comparaison des signatures numenques, L'algoiithme mathematique qui est 
utilise poui le calcul des signatures numenques gaiantit que si il existe un extiait commun 
entre les deux fichiers audio, un extiait commun seia alois d&ect6 entre les signatures 
numenques Toutefois, la condition reciproque est fausse : il y a une possibility de d&ecter des 
extiaits communs de signatures numenques qui ne correspondent pas a des extraits communs 
audio. 

Afin de disposer d'un indice de confiance sui les r&ultats de recher che, le traitement utilise un 
modele de probability qui peimet de calculer un taux d'eireur de fausses detections Le modele 
consiste k calculer la probabilite de mise en coirespondance d'un groupe de N donnees 
consecutives de signatures numenques representatif d'un extiait audio avec un autre groupe de 
N donates consecutives de signatures numenques dont les valeurs sont aleatoires et 
representative d'un signal audio aleatoire. 

La probability P(N) de detection d'un extiait commun de N donnees de signatures numeriques 
s'expiime alors sous une forme P exp(N), P etant la probability de tiiage d'un extr ait commun 
de taille 1 Dans la pratique, et compte tenu de Femploi simultane de plusieurs etats de logique 
flou, P est inferieure a 1/2 et on majore done P(N) par 1/2 exp(N) , Sachant que Ton peut 



WO 2005/101292 



PCI7FR2005/000673 



53 

approximer 2 10 par 10 3 , on deduit facilement la probabilite de fausse detection dhin extiait 
commun de N donnees: P(10) < 10°, P(20) < 10* 6 , . „ 

Pom evaluer le nombte probable de fausses detections qui sera associS k la compaiaison de 
deux flchiers audio, il faut multiplier cette valeur P(N) pax le nombre total de couples de 
positions de dSbut d'extiaits de signatures numeriques qui est teste tors de Tetape de 
compaiaison des signatures numeriques.. Si Ton prend SI corame notation du nombre de 
donnees de signatures numeriques du fichier audio 1 et S2 pour le fichiei audio2, le nombre 
probable de fausses detections devient P(N) x SI x S2 

Comme indique plus haut, ce nombre est divis6 pat 2 , chaque fois que Ton augmente de 1 la 
taille des extiaits communs de signatures numeriques recherches (et divisS par 1000 si Ton 
augmente la taille de 10). 

Pour afEner Palgorithme de detection d'extraits musicaux, on a ajust£ la taille minimale 
d'extrait commun de signatures k 50 donnees ce qui gaiantit une probability de fausse detection 
inferieure a 10 15 , Ce choix tient compte du caractere non al6atoire des signaux audio traites, 
qui dans le cas de la musique component de nombreuses plages repetitives (refrains, et autres) , 
Cette taille peut bien sur etre adaptde au besoin d'autres applications, soit pour augmenter, soit 
pour diminuer te taux d'eireur acceptable., 

A partir cette taille minimale d'extrait, le programme determine k rebours la dur^e minimale 
des extiaits a recherchei en fonction de la valeur de dui^e associde k chaque donnee de 
signature (Finverge de la frequence des donnees de signatures). 

Pour une frequence de signature num&ique de 25 Hz (25 donnees par secondes), le 
programme pennet de rechercher des extiaits audio dHrae dur£e minimale de 2 secondes (50 x 
l/25s). Poui' une frequence de signature num&ique de 5 Hz (5 donnees par' secondes), le 
programme permet de rechercher des extiaits audio d'une durfe minimale de 10 secondes (50 x 
l/5s)„ Poui une frequence de signature numerique de 1 Hz (1 donnee pai secondes) 3 le 
programme peimet de rechercher des extiaits audio d*une duree minimale de 50 secondes. 
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Dans la pratique, c'est Fapplication qui fixe la valeur seuil de duree minimale d'extiait audio a 
recheicher. Pour des applications depiges publicitaires, le besoin est de detectei des extiaits de 
spots de television ou de ladio de Tordre de 5 s. Pom des applications de reconnaissance de 
titles musicaux, le besoin est de d6tecter des extiaits de 1'ordre 15 s. Pom des applications de 
reconnaissance de programmes de television (films, series, etc), le besoin est de d6tectei des 
extiaits de 1'ordre de la minute, 

On indique en outre que dans 1'application k des fichieis audio, video, ou autres, oi les premier 
et second fichieis sont des fichieis d'Schantillons de signaux numerises, le procedS au sens de 
Tinvention comporte avantageusement une etape de pre-traitement des donnees, par exemple 
par filtrage en sous-bandes, et une piise en compte des donnees associees k des poitions de 
signal de niveau supeiieur k une reference de bruit, pour limitei des effets d'egalisations 
differentes entie les premiei et second fichiers , 

En outre, le precede prevoit avantageusement une etape de consolidation des resultats de 
recherche, preferentiellement par ajustement de tailles relatives des paquets des premiei et 
second fichieis, de maniere k tolerer un ecait en vitesses de restitution iespectives des premier 
■ et second fichieis. 

Enfin, on indique que Tun au moins des premiei et second fichiers peut etre, dans cette 
application, un flux de donnees, et le procedS de recherche d'extraits communs est alors 
execute en temps reel , 

Un progiamme specifique, eciit en langage C++-, a et6 developpe pour effectuer la recherche 
d'extiaits communs avec des micro -ordinateurs equipfe d'un systeme d'exploitation Windows 
32bits, II propose de selectionner deux fichiers k comparer, de ddfinii la taille minimale des 
extraits communs k y trouver, puis de lancer la recherche. 

Des le lancement de la recherche, le progiamme affiche avantageusement une fenetre de suivi 
d' execution. Cette fenetre indique le temps ecouI6 depuis de la debut de la recherche et des 
estimations de la duree totale et de la vitesse de recherche, Elle peimet dgalement 
d'abandonnei la recherche si il s'avere que sa duree est jugee trop longue. La recherche 
s'intenompt d£s qu'un extrait commun a et£ trouve. La taille de Textiait trouve et sa position 
dans chaque Schier sont alors afficbes. Le programme effectue Tanalyse des fichieis en 
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suivant un ordre pred&Sni, Le piincipe est de tester chaque couple de positions de debut 
pouvant etre piis par 1 un extiait commun dans les fichiers. 

Sa mise en ceuvre est decrite dans les presentations ci-apifcs des algorithmes de recherche., On 
indique que la recherche peut Stre reprise pour trouver d'autres extraits cornmuns aux fichiers 
5 Dans ce cas, la recherche est reprise a partir du couple de positions de ddbut du dernier extiait 
commun trouve et en suivant Pordre pr^defini d'analyse des fichiers. La recherche s'arrete 
quand les fichiers ont et£ entierement analyses. Les conditions de l a arret sont alois affichdes 
pour indiquei selon le cas qu'il n'y a pas d'extrait commun aux fichiers ou qu'il n'y a pas 
d' autre extiait commun aux fichiers. 

10 Le progiamme propose d'utiliser au choix deux algorithmes pour effectuer des recherches : un 
algoiithme de recherche classique et un algoiithme au sens de Pinvention, 
Le programme perrnet ainsi de comparer sui un meme micro-ordinateur les performances des 
deux algorithmes, et ce, pour une configuration de recherche quelconque, en termes de taille 
minimale des exrraits cornmuns a rechercher, de taille des fichiers, de nature des fichiers, ou 

15 autres 

Le critfere devaluation des performances est la rapidity d*ex£cution des algorithmes Les 
fen6tres de suivi d*ex£cution peimettent de recup6rer les estimations telles que la duree 
d'execution pour accomplir la recherche, la vitesse de r echerche, et autres. 
II est apparu avec Talgorithme classique que la vitesse de recherche est pratiquement constante 
20 et ne depend pas de la taille minimale des exrraits cornmuns a trouvei. Elle s'exprime en 
nombre d'operations de comparaison de donnees binaires (octets) par seconde qui sont 
effectu^es par rordinateur. Sa valeur est toujours inf6rieure a la frequence d'horloge du 
microprocesseur. 

En revanche, avec l'algoiithme au sens de rinvention, la vitesse de recherche varie en fonction 
25 de la taille minimale des extiaits cornmuns a trouver.. Elle s'exprime par une estimation du 
nombre d'operations de comparaison de donnees binaires (octets) par seconde qui seraient 
effectuees par Tordinateui si ralgorithme classique etait utilisd Ainsi, plus la taille minimale 
des extiaits cornmuns a trouver augmente, plus la vitesse augments, Sa valeur peut d^passer 
celle de la frequence d'horloge du microprocesseur , 

30 

On a represents sui la figure 19A une copie d'ecran d'une botte de dialogue dans le cadre 
d'une interface homme machine d'un progiamme informatique au sens de Tinvention, pour 
une recherche, a l'identique, d'extraits cornmuns entre deux fichiers textes.. La figure 19B 
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represente une copie d'ecran indiquant revolution de la recherche definie sur la page d'ecran 
de la figure 19A. On constatera que le temps pris par cette recherche est de deux secondes, 
alors que Ies tallies des fichiers etaient respectivement de 85390 octets et 213275 octets (figure 
19A), 

5 

On a represents sur la figure 19C une copie d'dcran pour une recherche d'extraits communs 
entre deux fichiers audio, au format WAV, Comme indique" ci-avant, il s'agit 
preferentieilement d'une recherche qui n'est pas a I'identique, mais dont les parametres 
(desquels decoule en paiticulier 1'indice de confiance dScrit ci-avant) sont determines dans 
10 cette boite de dialogue (paitie superieure de la figure 19C), Ici, on dispose d'un enregistrement 
d'une heure de radio (103,9 MHz en FM a Paris), d'une paxt, et une base de 244 
enregistrements sonores (musique, spots publicitaires, etc), d'autre part La recherche a detecte 
83 extraits communs de la base dans 1' enregistrement radio, 

La figure 19D represente enfin une copie d'ecran pour la creation de fichier de signature 
1 5 numeiique 61abor6 a partir d'un traitement en temps r6el de signaux audio, correspondant a un 
enregistrement radio (105,5 MHz a Paris) de deux heures de duree, a une frequence 
d'echantillonnage de 22,050 kHz. On indique que la precision de la signature (ici choisie a 
5Hz, parmi un choix de 2, 5 ou 25Hz) correspond au nombre de donnees dans la signature 
numerique, pax seconde de morceau de musique., Ce parametre peraiet notamment d'affiner la 
20 precision de l'instant de dSbut de detection d'extraits communs. 

On a represents sur la figure 18 le contexte d'une autr e application de la presente invention, en 
paiticulier a la mise a jour a distance de ftm des premier et second fielders par rapport a Tautre 
des premier et second fielders, On prevoit a cet effet une installation informatique, 
25 comportant : 

- une premiere entite* informatique PCI propre a stacker le pr emier fichiei, 

- une seconde entite" informatique PC2 propre a stacker le second fichier, et 

- des moyens de communications COM entre les premiere PCI et seconde PC2 unit& 
infoimatiques. 

30 L*une des entites au moins (PCI et/ou PC2) compoite une memoire (respectivement MEMl 
et/ou MEM2) propre a stockei le produit programme d'ordinateur tel que decrit ci-avant, pour 
la recherche d'extiait commun entre les premier et second fichiers , 
A ce titre, la presente invention vise aussi une telle installation. 
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Ici, Tentite stockant ce produit programme d'ordinateur est alors capable d'effectuer une mise a 
join a distance de Tun des premier et second fichiers par rapport k l'autre des premier et second 
fichiers, en comparant dej& les premier et second fichiers,, Ainsi, l'une des entites peut avoir 
fait evoluer nn fichier infoimatique pai' des nouvelles saisies de donnees ou autres 
modifications dans une ceitaine peiiode (une semaine, un mois, ou autre), L'autre entite 
infoimatique, qui dans cette application, doit assurer le stockage et la mise a jour r6gulifere des 
fichieis issus de la premiere entity re$oit ces fichiers,, 

Plut6t que de transferer completement les fichiers k mettre a jour de la premiere entite vers la 
deuxi&ne entite, la premiere entit6 repere par le procedS au sens de Invention les extraits de 
donnees qui sont communs entre deux versions d'un m&ne fichier, la nouvelle veision qui a 6t& 
modifie e par ajout ou par suppression de donnees, et I'ancienne version qui a &e prSalablement 
tiansmise & Tautre entite et dont la premier e entite a conservd localement une sauvegarde. Cette 
comparaison au sens de Finvention perniet de cr<5ex un fichier de differences entre la nouvelle 
version et I'ancienne version du fichier qui comporte des infoimations de position et de taille 
des extraits communs de donnees qui peuvent etre utilises pour reconstruire partiellement la 
nouvelle version du fichier k partir des donn6es de Tancienne version du fielder, et qui 
compoite les complements de donnees qui doivent etre utilises pour achevei la reconstruction 
de la nouvelle version de fichier. La mise a jour du fichier s'effectue ensuite en proc6dant par 
une transmission du fichier de diff6rences vers la deuxieme entite, puis en appliquant ensuite 
un tiaitement local a la deuxieme entite de reconstruction de la nouvelle version du fichier pax 
combinaison de Tancienne version du fichier et dudit fichier de differences. 

^application du precede au sens de Tinvention peimet de reduire considercblement les temps 
de tiaitement necessaires k la generation dudit fichier de differences et permet de require le 
volume des donnees a transferer (et done les coftt et temps de transfeit) pour effectuer la mise a 
jour k distance de fichiers informatiques volurnineux n'ayant subi que peu de modifications, 
notamment lorsque de tels fichiers component des donn&ss comptables, bancaiies ou autres, 

Les entites infoimatiques peuvent se presenter sous la forme de tout dispositif infoimatique 
(ordinateur, seivem; ou autre) compoitant une memoire pom stocker (au moins 
momentanement) les premier et second fichiers, pour la recherche d'au moins un extrait 
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commun entre le premier fichiei et le second fichiei,. lis sont alors equipes d'une memoire 
stockant aussi les instructions d'un produit programme d'ordinateur du type deciit ci-avant . 
A ce titre, la presente invention vise aussi un tel dispositif infoimatique 

Elle vise aussi un produit programme d'ordinateur, destin6 a Stre stocke dans une memoiie 
d'une unit6 centrale d'un ordinateur tel que le dispositif infoimatique prScite ou sui un support 
amovible destine a coopfrei avec un lecteux de cette unit6 centrale.. Ce produit programme 
compoite des instructions pour derouler tout ou partie des etapes du traitement au sens de 
Tinvention d6eiit ci avant. 

La presente invention vise aussi une structure de donnees destinies k etre utilisdes pom une 
recherche d r au moins un extrait commun entre un premier' et un second fichiei, la structure de 
donn6es etant representative du premier fichiei 1 , des lors que cette structure de donnees est 
obtenue par T application du traitement au sens de Tinvention pour foimer une signature 
num&ique, En paiticulier, cette structure de donnees est obtenue par la mise en ceuvre des 
Stapes a) et b) du proc£d6 enonce ci-avant et compoite une succession d'adresses identifiant 
des adicsses du premier fichiei et i chacune desquelles est affect^ un etat en logique floue 
parmi les 6tats : "vrai" (1), "faux 11 (0) et "indeteimin^" ( ?). 
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Revindications 

1 Precede de recherche de contenu, dans lequel on recherche au moins un extiait commun 
entre un premier fichier et un second fichier, sous foime de donnees binaiies, caracterise" en ce 
5 qu'il comporte une preparation prt&alable du premier fichier au moins, compienant les Stapes 
suivantes : 

a) segmentei le premier fichiei en une succession de paquets de donnees, de taille choisie, et 
identifier des adresses de paquets dans ledit fichiei, 

b) associer a l'adresse de chaque paquet une signature num&ique d6finissant un 6tat en 
10 logique floue paimi au moins trois etats : "viai", "faux" et "ind&eimin<S w , ladite signature 

resultant dHin calcul combinatoire sur des donnees issues dudit fichiei, 
et en ce que le proc6d6 se poursuit par une recherche d'extiait commira, proprement dite, 
comprenant les Stapes suivantes : 

c) compare! les etats de logique floue associSs a chaque adresse de paquet du premier fichier, 
15 avec des etats de logique floue determines k paitir de donnees issues du second fichiei, 

d) eliminer de ladite recherche d'extiait commun des couples d'adresses respectives des 
premier et second fichieis dont les 6tats logiques respectife sont "viai" et "faux" ou "faux" 
et "viai", et conseiver les autres couples d'adresses identifiant des paquets de donnees 
susceptibles de comporter ledit extiait commun. 

20 

2, Proc6de selon la revendication 1, caract&ise en ce que, a Tetape b), on afiecte k un paquet 
de donnees Petal : 

- "viai" si toutes les donnees du paquet venfient une premiere condition, 

"faux" si toutes les donnies du paquet venfient une seconde condition, contiaire a la 
25 premiere condition, 

- et "indeternrine" si ceitaines donnees du paquet v&ifient la premiere condition, tandis que 
d'autres donnees du paquet v&ifient la seconde condition. 

3 Procede* selon Fune des revendications 1 et 2, caracterise' en ce que Ton applique aux 
30 denudes d T un fichiei un tiaitement prdalable k Wtape b) et compoitant les Stapes suivantes : 

al) on considere les donnSes du fichier en tant que suite d'echantillons obtenus a une 
Sequence d^chantillonnage prSdetenninee (Fe), et de valeurs codecs selon un code de 
representation binaire, et 
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a2) on applique un filtre numeiique sur lesdits echantillons (£,), adapts pour minimise une 
probabilite d'obtention de l'etat "indeteirnine" pom les signatures numeiiques associees 
aux paquets d'echantillons. 

4. Procede selon la revendication 3, catacterise en ce que Implication dudit filtre numeiique 
revient k : 

appliquer une transfoimSe spectraie aux donnees 6chantillonn6es, 

- appliquer un filtre passe-bas a ladite transform^e spectraie, 

- et appliquer une transfoim£e spectraie inverse aprfes ledit filtre passe-bas* 

5, Precede selon la revendication 4, caracteiis6 en ce que le filtre passe-bas opere sui' une 
bande de Sequences comprenant sensiblement I'inteivalle : 

|>Fe/2(k-l), +Fe/2(k-l)]» 
ou Fe est ladite frequence d'echantillonnage, 
et k est le nombre d'echantillons que compoite un paquet 

6 . Procede selon Tune des revendications 4 et 5, caract6xis6 en ce que ledit filtre numeiique 
compoite un nombre predetermine de coefficients de ra6me valeur, 

et en ce que la reponse fi6quentielle du filtre passe-bas associe s'expiime, en fonction de la 
frequence f ; par une expression du type : 

sin<PIf,T)/(PLfT), 
ou sinQ est la fonction sinus, et avec : 

- PI » 3,1416, et 

- T=(K-1)/Fe ou K est ledit nombre predetermine de coefficients et Fe ladite frequence 
d'echantillonnage. 

7. Procede selon Tune des revendications 3 a 6, caiact&is6 en ce que ledit filtre numeiique est 
un filtre a valeur moyenne d ! un nombre predeteimine (2K+ 1) de coefficients, et en ce que la 
difference entre deux echantillons filtres successifs (r^-in) est propoitionnelle a la difference 
entre deux Echantillons non filtres (firuc+rffr.K), respectivement d*un premier rang et d'un second 
rang, espac6s dudit nombre predetermine de coefficients, et en ce que le calcul desdits 
echantillons filtres est effectue en exploitant cette relation pour reduire le nombre d'opeiations 
de calcul a efiectuer.. 
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8, ProcEdE selon Tune des revendications 6 et 7, catacteiisE en ce que ledit nombre 
predetermine de coefficients du filtre (2K+1) est superieur ou egal a 2k-l, ou k est le nombre 
d'Echantillons que compoxte un paquet 

9 ProcEdE selon Fune des revendications 3 a 8, prises en combinaison avec la revendication 2, 
caractEiisE en ce que : 

... Tetat "vrai" est afiecte a l'adresse d'un paquet si, pour ce paquet, tous les Echantillons 
filtrEs ont une valeui supEiieure a une valeur de reference choisie (Vref), 

- l'Etat "faux" est affects a l'adresse d*un paquet si, pour' ce paquet, tous les echantillons 
filtres ont une valeur infeiieure a une valeur de reference choisie (VrEf), et 

- FEtat "indeteimine" est affecte a Fadresse dhsn paquet si, pour ce paquet, les echantillons 
filtrEs ont, pour certains, une valeur infeneure a ladite valeur de reference (VrEf), et, pour 
d'autres Echantillons filtres, une valeur supEiieure a ladite valeur de reference (VrEf>. 

10,, Proc6de selon la revendication 9, caractense en ce que, pour tout Echantillon filtre) r n , 
d'ordre donnE n, ladite valeur de reference (Vref) est calculEe en moyennant les valeuis des 
Echantillons non filtres fk, sur un nombre choisi d'Echantillons consEcutifs non filties (Kref) 
autour d*un Echantillon non fillrE f M du meme ordre donnE n., 

11. ProcEdE selon la revendication 10, caracteiisE en ce que les valeurs des echantillons filties 

sont ramenEes, pour comparaison, a une valeur seuil nulle, 

et en ce que lesdits Echantillons filtres f n s'expriment par une somme du type : 



- f n +k sont des Echantillons non filtrEs obtenus a TEtape al), 

- K est le nombre de coefficients du filtre numEiique, prEfErentiellement choisi pair, et 

- K ref est ledit nombre d'Echantillons non filtres autour dHin Echantillon non filtre f m 
prEfErentiellement choisi pair et superieur audit nombre de coefficients K. 

12. ProcEdE selon la revendication 11, caractense en ce que Von applique ladite somme aux 
Echantillons non filtres f tt une pluralitE de fois, selon un tiaitement efifectue en paiallele, en 
faisant vaiier respectivement le nombre de coefficients K. 




WO 2005/101292 



PCT7FR2005/000673 



62 

13 , Proc6d6 selon rune des revendications prec£dentes, caiact6ris6 en ce que les Stats flous 
associes an premier fichier au moins sont cod6s chacun sue au moiris deux bits. 

5 14, Precede selon la revendication 13, prise en combinaison avec la revendication 12, 
caracteiise en ce que les Stats flous d&erminSs pourun nombre de coefficients K Ie plus faible 
sont codfis sut des bits de poids le plus faible et les etats flous determines pour un nombre de 
coefficients K plus grand sont cod6s sur des bits suivants, jusqu'a un nombre total choisi de 
bits, 

10 

15,. ProcedS selon Fune des revendications 3 et 10, caiacteiis6 en ce que chaque Schantillon 
filtre i n s'expiirne comme une somme du type : 

- f (n 4i) sont des Scbantillons non filtrSs, 

15 - filtres sont des coefficients d'un filtre num&ique, integiant, le cas echeant, une valeui seuil 
xamenSe a zero, 

et en ce que Ton cboisit un nombre k d'6chantillons non filtres que compoite un paquet, au 
minimum egal 4 2 et inf&ieur ou egal a une expression du type : 

(TEF-Ii >»Itff 1^2, ou TEF est une taille minimale souhaitee des extiaits communs recheich6s, 

20 

16. Procedd selon la revendication 15, caiact6ris6 en ce que : 

- pour une valeui' donnee TEF de la taille minimale souhaitee d'extiaits communs 
recherches, on d&errnine une plage de valeurs utilisables pour ledit nombie k 
d^chantillcms non filtres que compoite un paquet, 

25 - et, pour chaque valeui utilisable du nombre k, on deteimine une taille opthnale TES d r une 
succession de donnees de signatures num&iques pour laquelle la detection d'un extrait 
commun de taille TEF est gaiantie, 

et en ce que ladite taille optimale TES est infeiieure ou Sgale k une expression du type : 

E[(TEF-I r -l2+lVk]-l, oit E(X) d&igne la partie entiere de X 



30 
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17 ProcedS selon i ! une des revendications pr6cedentes, dans lequel les deux fichieis a 
comparer compoitent des donnees representatives de caracteres alphanumeiiques, notamment 
du texte et/ou un code informatique ou genetique, 
caracteiise en ce que le procede compoite : 

- un premier groupe d'etapes compoitant la formation des signatures numeiiques et leur 
comparaison, pour une recherche grossi&re, et 

- un second groupe d'etapes compoitant une comparaison k Tidentique dans les plages 
d'adresses veiifiant la comparaison grossi&re, 

en ce que Ton considfcre les donnees d r un fichier en tant que suite d'Schantillons, avec un 
nombre choisi k d'Gchantillons pax paquet, 

et en ce que la valeur de ce nombre choisi k est optimis^e initialement en recherchant un 
minimum d'operations de comparaison a effectuer* 

18. ProcedS selon la revendication 17, caract&is6 en ce que, pour l'optimisation du nombre 
choisi k d^chantillons par paquet, on tient compte d'un nombre total : 

- d'operations de comparaison de signatures num6riques k effectuer, et 

- d'op&ations de comparaison de donnees k l'identique a effectuer ensuite, 

et en ce que Iedit nombre total d'operations est minimum pour un ensemble ftni de nombi es k 

19. Proc6d6 selon l*une des revendications 17 et 18, caiacterisS en ce que Ton obtient une 
infoimation relative k une taille minimale souhaitee d'extiaits communs rechercbes (TEF), 
utilisSe pout optimise! ledit nombre choisi k d^chantillons pai' paquet, 

et en ce que le nombre optimal k d'echantillons par paquet vaiie sensiblement comme ladite 
taille minitnale (TEF), de soite que plus taille minimale souhaitSe d'extiaits communs 
recherches est grande et plus la dur& de la recherche d'extrait commun est couite. 

20 Proc&te selon Tune des revendications 1 a 16, caract&ise en ce que la recherche d'extiaits 
communs consiste en un unique groupe d'&apes comportant la foimation des signatures 
num6iiques et leur comparaison, et en ce que le nombre de donnees par paquet est optimist en 
se fixant initialement un indice de confiance caract&isant un seuil acceptable de probability de 
fausse detection d'extraits communs. 
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21. Procede selon l'une des revendicatioas 3 a 20, caracteiise en ce que, pom le premier 
fichier : 

« on applique Techantillonnage a une frequence d'echantillonnage choisie, 

- ie filtiage mimerique conespondant a un filtrage passe -bas dans Tespace des ftequences, et 

- la combinaison des echantillons filtrfe pour obtenir des signatures numeiiques a Tetat 
"vrai", "faux" ou "md&eimin<5", associfes aux adresses respectives du premier fichier, 

tandis que, pour le second fichier : 

- on applique Techantillonnage a une frequence d'echantillonnage choisie, 

- le filtrage numerique conespondant a un filtiage passe-bas dans l'espace des frequences, et 

- on determine 1'tot logique associe a chaque paquet d'Schantillons filti6s a paitii de l'6tat 
logique associ6 a un seul echantillon filti-6 choisi dans chaque paquet, 

de maniere a obtenir des signatures numer iques ne compoitant que des Stat logiques "vrai" ou 
"faux" et ainsi a am61iorer la selectivity de la comparison des signatures mim&iques. 

22. Procede selon la revendication 21, caiact&is6 en ce que : 

- si Tetat logique associS a une adresse du premier fichier est "vrai 1 ' ou "indetermine", tandis 
que Tetat logique assocte a une adresse du second fichier est "vrai", le couple desdites 
adresses est retenu pour la recherche d'extrait commun, 

- si T&at logique associS a une adresse du premier fichier est "faux" ou "ind6teimin6 ,, > tandis 
que F&at logique associS a une adresse du second fichier est "faux", le couple desdites 
adresses est retenu pour la recherche d'extrait commun, 

tandis que Ies autres couples d'adresses sont exclus de la recherche. 

23. Proc6d6 selon la revendication 20, dans lequel le$ premier et second fichiers sont des 
fichiers d'^chantillons de signaux numerisSs, caiacteris6 en ce que le proc£d6 comporte une 
Stape de pretiaitement des donnees et une prise en coinpte des donnies associees a des 
portions de signal de niveau sup&ieur a une reference de bruit 

24. Proced6 selon Tune des revendications 20 et 23, dans lequel les premier et second fichiers 
sont des fichiers d' echantillons de signaux num6iis&, caracteris6 en ce que le procedS prevoit 
une etape de consolidation des r6su!tats de recherche, pi6ferentiellement par 1 ajustement de 
tailles relatives des paquets des premier et second fichieis, de mani&re a toterer un ecart en 
vitesses de restitution respectives des pr emier et second fichiers „ 
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25 . Froc6d6 selon Pune des revendications precedentes, caiacterise en ce que l'un au moins des 
premier et second flchieis est un flux de donnSes, 

et en ce que Ie procede de recherche tfexiraits communs est execute en temps reel 

5 

26. Produit progiamme d'ordinateur, destine a Stre stocks dans une memoire d*une unite 
centrale d*un ordinateur ou sui un support amovible destinS a cooperer avec un lectern de ladite 
unite centrale, caract6rise en ce qu'il comporte des instructions pour derouler tout ou paitie des 
etapes du proc6d6 selon Tune des revendications pr6c6dentes. 

10 

27. Structure de donnSes destinees k etre utilises pom une recherche d'au moins un extiait 
commun entre un premier et un second fichier, la structure de donnees etant representative du 
premier fichier, 

caract6ris6e en ce qu'elle est obtenue par la mise en ceuvre des etapes a) et b) du procede selon 
15 Tune des revendications 1 & 25, 

et en ce qu'elle comporte une succession d'adresses identifiant des adresses du premier fichier 
et a chacune desquelles est affecte un 6tat en logique floue paimi les etats : "vrai", "faux" et 
"indetermine 11 . 

20 28. Dispositif informatique, comportant une memoire poui stacker au moins des premier et 
second fichiers, pour la recherche d f au moins un extiait commun entre le premier fichier et le 
second fichier, caracteiis6 en ce qu'il comporte une m&noire propre a stocker les instructions 
d'un produit progiamme tfordinateur selon la revendication 26 , 

25 29. Installation informatique, comportant : 

■- une premiere entit6 informatique propre & stocker un premier fichier , 

- une seconde entity informatique pTOpre a stocker un second fichier 1 , et 

- des moyens de communications entre les premfere et seconde unites infoimatiques, 
caract6risee en ce que lWe des entites au moins comporte une m&noire propre h stacker le 

30 produit programme d'ordinateur selon la reveiidication 26, pour la recherche d'extrait commun 
entre les premier et second fichiers. 
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30. Installation selon la revendication 29, caract6ris£ en ce que Tentit6 stockant le produit 
programme d'ordinateur est agencee pour effectuer une mise a jour a distance de Tun des 
premier et second fichiers par rapport a Tautre des premier et second fichiers 
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